Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Bagging heterogeneous ensemble learning for imbalanced data: a case study of German credit data
Year (A.D.)
2022
Document Type
Thesis
First Advisor
ณัตติฤดี เจริญรักษ์
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2022.963
Abstract
งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างตัวแบบการเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนาน (Bagging Heterogeneous Ensemble) และหาวิธีการลดมิติข้อมูลและวิธีการสุ่มตัวอย่างซ้ำที่เหมาะสมกับข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลแตกต่างกัน 3 ค่าคือ 2.3, 10 และ 14 โดยวัดประสิทธิภาพด้วยตัวชี้วัด Accuracy, The area under the curve, F1-score, Precision, Brier score และ Kolmogorov-Smirnov และทดสอบทางสถิติเพื่อแสดงว่าประสิทธิภาพของตัวแบบมีความแตกต่างกัน ที่ระดับนัยสำคัญ 0.05 ผลการศึกษาพบว่าข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลต่ำ (IR = 2.3) ตัวแบบ Logistic Regression ที่ใช้เทคนิค Linear Discriminant Analysis (LDA) และ Systematic Minority Over-Sampling Technique (SM) จะมีประสิทธิภาพเฉลี่ยดีที่สุดในการจำแนกประเภท ในส่วนของอัตราส่วนความไม่สมดุลกลาง (IR = 10) และ อัตราส่วนความไม่สมดุลสูง (IR = 14) วิธีการลดมิติข้อมูลและการสุ่มตัวอย่างซ้ำที่มีประสิทธิภาพคือ Linear Discriminant Analysis (LDA), Random Under-Sampling (RUS) และ Linear Discriminant Analysis (LDA), Borderline SMOTE (BSM) ตามลำดับ โดยที่การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานมีประสิทธิภาพเฉลี่ยดีที่สุด ทั้งในกรณีที่มีและไม่มีวิธีการลดมิติข้อมูลและสุ่มตัวอย่างซ้ำของอัตราส่วนความไม่สมดุลกลางและสูง
Other Abstract (Other language abstract of ETD)
The objective of this study is to develop a bagging heterogeneous ensemble and identify appropriate dimensionality reduction and resampling techniques for three different imbalance ratios (2.3, 10 and 14) in the German credit data. Model performance was evaluated using Accuracy, the area under the curve, F1-score, Precision, Brier score and Kolmogorov-Smirnov and statistical tests showed significant performance differences at 0.05 significance level. The study found that for German credit data with low imbalance ratio (IR = 2.3), the Logistic Regression model using Linear Discriminant Analysis (LDA) and Systematic Majority Over-Sampling (SM) had the best classification performance. For medium imbalance ratio (IR = 10) and high imbalance ratio (IR = 14), the most effective techniques for dimensionality reduction and resampling were Linear Discriminant Analysis (LDA), Random Under-Sampling (RUS), and Linear Discriminant Analysis (LDA), Borderline SMOTE (BSM) respectively. The Bagging Heterogeneous ensemble performed best both in cases with and without resampling and dimensionality reduction for medium and high imbalance ratios.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ศรีโรจน์, ศศิวิมล, "การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานสำหรับข้อมูลไม่สมดุล กรณีศึกษาข้อมูลเครดิตเยอรมัน" (2022). Chulalongkorn University Theses and Dissertations (Chula ETD). 6673.
https://digital.car.chula.ac.th/chulaetd/6673