Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

ขั้นตอนวิธีป่าสุ่มด้วยบูทสแทรปรูปแบบควอไทล์สําหรับปัญหาคลาสไม่ดุล

Year (A.D.)

2022

Document Type

Thesis

First Advisor

Krung Sinapiromsaran

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Department (if any)

Department of Mathematics and Computer Science (ภาควิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์)

Degree Name

Master of Science

Degree Level

Master's Degree

Degree Discipline

Applied Mathematics and Computational Science

DOI

10.58837/CHULA.THE.2022.1089

Abstract

Nowadays, classification in machine learning serves as a valuable tool for extracting and analyzing real-world datasets. However, an important issue in classification is the problem of class imbalance, which significantly impacts the performance of classifiers. In 2019, a novel approach for a decision tree induction was introduced to address This problem—the Minority Condensation Entropy (MCE) measure that can effectively handle imbalanced datasets. Subsequently, in 2021, a new outlier factor called the Mass ratio - variance Outlier Factor (MOF) was presented that can rank instances based on the dataset density. This thesis proposes a random forest algorithm using quartile-pattern Bootstrapping that incorporates MOF and MCE building a random forest capable of handling binary Class imbalanced datasets. The experimental results on synthesized datasets and real-world datasets indicated that the proposed algorithm outperforms other existing algorithms in terms of Precision, Recall, F-measure, and geometric mean, showing its effectiveness in handling imbalanced datasets and improving classification accuracy.

Other Abstract (Other language abstract of ETD)

ในปัจจุบันการจำแนกประเภทในการเรียนรู้ของเครื่องเป็นเครื่องมือที่สำคัญสำหรับการ ดึงข้อมูลและการวิเคราะห์ข้อมูลโลกจริงอย่างไรก็ตามปัญหาที่สำคัญในการจำแนกประเภท คือปัญหาของความไม่ดุลของคลาสซึ่งมีผลกระทบต่อประสิทธิภาพของตัวจำแนกประเภท อย่างมีนัยสำคัญในปี 2019มีการนำเสนอวิธีการใหม่สำหรับการสร้างต้นไม้ตัดสินใจเพื่อแก้ ปัญหานี้ —ไมนอริตี้คอนเดนเซชันเอ็นโทรปี (MCE) ซึ่งสามารถจัดการกับชุดข้อมูลที่ไม่ ดุลได้อย่างมีประสิทธิภาพต่อมาในปี 2021มีการนำเสนอตัววัดปัจจัยความผิดปกติ เรียกว่า ปัจจัยความผิดปกติแมสเรโชแวเรียนซ์ (MOF)ที่สามารถจัดลำดับตัวอย่างตามความหนาแน่น ของข้อมูลวิทยานิพนธ์นี้นำเสนอขั้นตอนวิธีป่าสุ่มที่ใช้รูปแบบบูตสแทรปที่รวมMOFและ MCE เพื่อสร้างป่าสุ่มที่สามารถจัดการกับชุดข้อมูลสองคลาสที่ไม่ดุลผลการทดลองบนชุด ข้อมูลสังเคราะห์และชุดข้อมูลจริงแสดงให้เห็นว่าขั้นตอนวิธีที่นำเสนอมีประสิทธิภาพมากกว่า ขั้นตอนวิธีที่มีอยู่ในด้านพรีซีชันรีคอลตัววัดเอฟและค่าเฉลี่ยเรขาคณิตแสดงถึงความสามารถ ในการจัดการกับชุดข้อมูลที่ไม่ดุลและประสิทธิภาพที่ดีกว่าในการจำแนกประเภท

Included in

Mathematics Commons

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.