Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Effectiveness of handling imbalanced data methods for classification under varied conditions
Year (A.D.)
2022
Document Type
Thesis
First Advisor
ประภาศิริ รัชชประภาพรกุล
Second Advisor
สุรศักดิ์ เก้าเอี้ยน
Faculty/College
Faculty of Education (คณะครุศาสตร์)
Department (if any)
Department of Educational Research and Psychology (ภาควิชาวิจัยและจิตวิทยาการศึกษา)
Degree Name
ครุศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติและสารสนเทศการศึกษา
DOI
10.58837/CHULA.THE.2022.965
Abstract
การวิจัยนี้มีจุดประสงค์เพื่อศึกษาปฏิสัมพันธ์ของวิธีการปรับสมดุลข้อมูลกับเงื่อนไขด้านขนาดตัวอย่าง เทคนิคการจำแนกข้อมูล จำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง อัตราออด และร้อยละของจำนวนข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรองที่มีต่อประสิทธิภาพของการจำแนกกลุ่ม การปรับสมดุลของข้อมูลแบ่งออกเป็น 3 วิธี ได้แก่ (1) ไม่ปรับสมดุล (2) วิธี random oversampling และ (3) วิธีผสมผสานระหว่างรูปแบบสุ่มเกินและสุ่มลด (hybrid) โดยใช้แพคเกจ ROSE ส่วนเงื่อนไขด้านขนาดตัวอย่างแบ่งออกเป็น ขนาดตัวอย่างเท่ากับ 100 300 และ 500 หน่วย ด้านเทคนิคการจำแนกข้อมูล แบ่งออกเป็น 4 วิธี ได้แก่ (1) เคเนียร์เรสเนเบอร์ (2) การถดถอยโลจิสติก (3) แรนดอมฟอร์เรส และ (4) ซัพพอร์ตเวกเตอร์แมชชีน ตัวแปรจากการจำลองแบ่งออกเป็นตัวแปรตามซึ่งจำลองด้วยการถดถอยโลจิสติก ส่วนตัวแปรอิสระในการจำลองข้อมูลครั้งนี้จะกำหนดให้ใช้ตัวแปรอิสระจำลองทั้งหมด 8 ตัว โดยกำหนดให้มีจำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง 3 กรณี คือ 4:4 5:3 และ 6:2 ในขณะที่ระดับของอัตราออด จะสุ่มค่าจากช่วง [1,2) หรือ [2,3) และร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง แบ่งออกเป็น 2 กรณี ได้แก่ 60:40 และ 70:30 พิจารณาเกณฑ์ประสิทธิภาพของข้อมูลด้วยตัวชี้วัดความถูกต้องในการจำแนก ความไว และความจำเพาะ การจำลองแต่ละสถานการณ์จะทำซ้ำสถานการณ์ละ 500 รอบ การวิเคราะห์ปฏิสัมพันธ์ระหว่างวิธีการปรับสมดุลข้อมูลกับเงื่อนไขต่าง ๆ ใช้การวิเคราะห์ความแปรปรวนพหุคูณหลายทาง (n-way MANOVA) ผลการวิจัยพบว่า วิธีการปรับสมดุลข้อมูลมีปฏิสัมพันธ์แบบสองทางกับเงื่อนไขด้านขนาดตัวอย่าง ร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง อัตราออด และเทคนิคการจำแนกข้อมูล และพบปฏิสัมพันธ์แบบสามทางกับเงื่อนไขต่อไปนี้ (1) ขนาดตัวอย่างและจำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง (2) ขนาดตัวอย่างและเทคนิคการจำแนกข้อมูล และ (3) ร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง และเทคนิคการจำแนกข้อมูล ดังนั้นนักวิเคราะห์ข้อมูลควรเลือกใช้วิธีการปรับสมดุลข้อมูลโดยพิจารณาให้เหมาะสมกับสภาพของข้อมูลที่ใช้ในการวิเคราะห์
Other Abstract (Other language abstract of ETD)
The research aimed to study interaction effects between data balancing methods and data conditions included sample sizes, classification techniques, the number of variables between categorical variables and continuous variables, odds ratio, and percentage of data between majority and minority class. Data balancing methods divided into 3 methods, consisted of (1) do nothing (2) random oversampling and (3) combination between oversampling and undersampling (hybrid), using ROSE package. Conditions of sample sizes were included 100, 300, and 500. Classification techniques used in the study were (1) K-nearest neighbor, (2) logistic regression, (3) random forest and (4) support vector machine. Variables for classification analysis consisted of a dependent variable, which was simulated using logistic regression model, and 8 simulated independent variables. The number of variables between categorical variables and continuous variables were 4:4, 5:3, and 6:2, while levels of odds ratio were randomized from [1,2) or [2,3). The percentage of data between majority and minority class consisted of 60:40 and 70:30. 3 criterion of classification modeling were considered in this study included accuracy, sensitivity, and specificity. Each simulation was repeated 500 times. Interaction effects between data balancing methods and any conditions were analyzed using n-way MANOVA. The result revealed that data balancing methods had 2-way interaction effects with sample sizes, percentage of data between majority and minority class, odds ratio, and classification techniques. Moreover, it had 3-way interaction effects with following terms: (1) sample sizes and the number of variables between categorical variables and continuous variables, (2) sample sizes and classification techniques, and (3) percentage of data between majority and minority class and classification techniques. Therefore, the analyst should choose the appropriate data balancing methods with data conditions.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ลออสิริกุล, กาญธนา, "ประสิทธิภาพของวิธีการจัดการข้อมูลไม่สมดุลสำหรับการจำแนกกลุ่มภายใต้เงื่อนไขที่แตกต่างกัน" (2022). Chulalongkorn University Theses and Dissertations (Chula ETD). 6675.
https://digital.car.chula.ac.th/chulaetd/6675
Included in
Educational Assessment, Evaluation, and Research Commons, Statistics and Probability Commons