Chulalongkorn University Theses and Dissertations (Chula ETD)
Minority oversampling framework for class imbalance problem
Other Title (Parallel Title in Other Language of ETD)
กรอบงานการสุ่มเพิ่มตัวอย่างข้างน้อยสำหรับปัญหาความไม่ดุลระหว่างกลุ่ม
Year (A.D.)
2013
Document Type
Thesis
First Advisor
Krung Sinapiromsaran
Faculty/College
Graduate School (บัณฑิตวิทยาลัย)
Degree Name
Doctor of Philosophy
Degree Level
Doctoral Degree
Degree Discipline
Computational Science
DOI
10.58837/CHULA.THE.2013.1960
Abstract
This dissertation enhances oversampling techniques which are used in a class imbalance problem. Several weaknesses of existing oversampling techniques are investigated and the minority oversampling framework is suggested to overcome these weaknesses and improves the classification performances. This dissertation provides the framework which contains three research works that deal with different aspects of existing oversampling techniques. The first work is Relocating Safe-level SMOTE (RSLS) to avoid conflicted synthetic instances near majority instances. The second work is Adaptive Neighbor SMOTE (ANS) which provides the dynamic number of nearest neighbors in SMOTE algorithm. The final work is the minority outcast handling process with 1-nearest neighbor to handle noises of positive instances in the dataset for improving the classification performance. This minority outcast handling process is augmented into RSLS and ANS to boost their accuracies. The experimental results on 14 benchmark datasets and 5 classifiers confirm that both oversampling techniques with minority outcast handling outperform other oversampling techniques in most datasets under three performance measures; F-measure, geometric mean and adjusted geometric mean. Wilcoxon sign ranked test is conducted to verify that the improvements caused by these two oversampling techniques are statistically significant.
Other Abstract (Other language abstract of ETD)
วิทยานิพนธ์นี้ได้ปรับปรุงแก้ไขวิธีการสุ่มเพิ่มตัวอย่างที่ใช้ในปัญหาความไม่ดุลระหว่างกลุ่ม จุดด้อยของ วิธีการสุ่มเพิ่มตัวอย่างที่มีอยู่ได้ถูกวิเคราะห์และกรอบงานสุ่มตัวอย่างข้างน้อยได้ถูกเสนอเพื่อแก้ไขจุดด้อยเหล่านี้พร้อมการเพิ่มประสิทธิภาพในการแบ่งกลุ่ม งานวิจัยสามชิ้นในกรอบงานนี้ได้จัดการกับแง่มุมที่เป็นจุดด้อยของวิธีการสุ่มตัวอย่างที่มีอยู่ งานชิ้นแรกคือ Relocating Safe-level SMOTE ที่หลีกเลี่ยงการสังเคราะห์ ข้อมูลใกล้กับจุดข้อมูลกลุ่มข้างมาก งานชิ้นที่สองคือ Adaptive Neighbor SMOTE (ANS) ที่ให้จำนวนเพื่อนบ้านแบบพลวัต ที่เป็นกระบวนการหนึ่งในวิธีการ SMOTE งานชิ้นสุดท้ายคือ ขั้นตอนการจัดการจุดข้อมูลข้างน้อยนอกคอกด้วยเพื่อนบ้านที่ใกล้ที่สุด สำหรับจุดข้อมูลส่วนเกินของกลุ่มข้างน้อย เพื่อพัฒนาผลลัพธ์ในการแบ่งกลุ่ม โดยที่ minority outcast handling นี้จะเป็นส่วนเพิ่มเติมของ RSLS และ ANS เพื่อเพิ่มความแม่นยำของทั้งสองวิธี ผลการทดลองบนชุดข้อมูลมาตรฐาน 14 ชุดและตัวแบบจำแนกประเภท 5 แบบ แสดงว่าวิธีการสุ่มเพิ่มตัวอย่างทั้งสองและขั้นตอนการจัดการจุดข้อมูลข้างน้อยนอกคอก สามารถเอา ชนะวิธีการสุ่มเพิ่มตัวอย่างข้างน้อยอื่น ๆ ในชุดข้อมูลส่วนใหญ่ ภายใต้ตัววัด F-measure, geometric mean และ adjusted geometric mean นอกจากนี้การทดสอบวิลคอกซันถูกใช้เพื่อแสดงให้เห็นว่าการพัฒนาขึ้นโดยรวมที่เกิดจากวิธีการทั้งสองมีนัยสำคัญทางสถิติ
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Siriseriwan, Wacharasak, "Minority oversampling framework for class imbalance problem" (2013). Chulalongkorn University Theses and Dissertations (Chula ETD). 16942.
https://digital.car.chula.ac.th/chulaetd/16942