Chulalongkorn University Theses and Dissertations (Chula ETD)
ตัวปรับแบบยึดเกาะในต้นไม้ติดสินใจสำหรับเขตข้อมูลไม่สมดุล
Other Title (Parallel Title in Other Language of ETD)
An adhesive modifier in decision trees for imbalanced data sets
Year (A.D.)
2010
Document Type
Thesis
First Advisor
สุกรี สินธุภิญโญ
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2010.1395
Abstract
ต้นไม้ตัดสินใจเป็นเทคนิคการจำแนกข้อมูลที่ใช้กันอย่างแพร่หลายทางด้านการทำเหมืองข้อมูล การสร้างต้นไม้ตัดสินใจสามารถสร้างได้หลายรูปแบบขึ้นอยู่กับการเลือกตัววัดความสามารถในการแบ่งแยกข้อมูล วิธีหนึ่งที่นิยมนำมาใช้ คือ ID3 ซึ่งเลือกคุณลักษณะบนพื้นฐานของทฤษฎีสารสนเทศ และ C4.5 ได้พัฒนาต่อมาจาก ID3 ใช้ทฤษฎีสารสนเทศเช่นเดียวกับ ID3 และได้แก้ปัญหาไบแอสด้วยค่าสารสนเทศการแบ่งแยก ทั้งสองวิธีนี้รวดเร็ว และเข้าใจง่ายเมื่อเทียบกับวิธีอื่นๆ และเหมาะกับข้อมูลที่มีการกระจายแบบสมดุล แต่เมื่อนำมาจำแนกข้อมูลไม่สมดุล การเลือกคุณลักษณะจะให้ความสำคัญกับกลุ่มที่มีจำนวนตัวอย่างมาก ไม่สนใจกลุ่มที่มีจำนวนตัวอย่างน้อย ทำให้ได้ผลการทำนายสูงในกลุ่มที่มีมาก แต่ให้ผลการทำนายต่ำในกลุ่มที่มีน้อย วิทยานิพนธ์ฉบับนี้จึงนำเสนอเอนโทรปีแบบใหม่สำหรับต้นไม้ตัดสินใจ โดยใช้วิธี C4.5 เป็นพื้นฐาน สำหรับการเรียนรู้ข้อมูลแบบสองกลุ่ม จุดประสงค์คือ เพื่อจำแนกตัวอย่างน้อยให้ดีขึ้น ในการทดลองนั้นใช้การทดสอบแบบไขว้ข้าม 5 กลุ่มกับ 16 ชุดข้อมูลไม่สมดุล และเปรียบเทียบผลการทดลองกับอัลกอริทึม C4.5, เอนโทรปีแบบอสมมาตร และเอนโทรปีแบบออกจากศูนย์กลาง ทดสอบประสิทธิภาพด้วยค่าความระลึก ค่าความเที่ยง และค่าเอฟ ซึ่งคำนวณได้จากตารางคอนฟิวชันเมตริกซ์ จากผลการทดลองพบว่าวิธีการที่นำเสนอสามารถสร้างกฎของกลุ่มที่มีน้อยได้ดีกว่าวิธีอื่นจึงทำให้จำแนกตัวอย่างในกลุ่มที่มีน้อยได้ดี
Other Abstract (Other language abstract of ETD)
In data mining research, decision tree is a famous method for classification. It can build different forms of decision trees based on selected splitting attribute. One of the most famous algorithms is ID3, in which choice of splitting attributes is based on information theory. C4.5 is an improvement of ID3 which, in the same way as ID3, constructs a decision trees using information theory but reducing the bias of ID3 by splitting information. Both are relatively fast and easily understood. However they are suitable only for the balanced class distribution, we cannot achieve good results on imbalanced data set. In this paper, we present a new entropy measure based on C4.5 method for decision trees learning on two-class data sets. We need a prediction model, which can improve the accuracy of the minority class. In our experiments, we tested our algorithm on 16 datasets using five-fold cross-validation method. We compared the results to C4.5, Asymmetric Entropy and Off-Center Entropy. Recall, precision, and f-measure were computed. The results show that the proposed method can construct the better rules which finally improve the accuracy of the minority class data.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
กฤษดาวาณิชย์, อุไรรัตน์, "ตัวปรับแบบยึดเกาะในต้นไม้ติดสินใจสำหรับเขตข้อมูลไม่สมดุล" (2010). Chulalongkorn University Theses and Dissertations (Chula ETD). 68015.
https://digital.car.chula.ac.th/chulaetd/68015