Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Comparison of the efficiency of class noise handling methodsfor data classification: multiple imputation method

Year (A.D.)

2023

Document Type

Thesis

First Advisor

ประภาศิริ รัชชประภาพรกุล

Faculty/College

Faculty of Education (คณะครุศาสตร์)

Department (if any)

Department of Educational Research and Psychology (ภาควิชาวิจัยและจิตวิทยาการศึกษา)

Degree Name

ครุศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิธีวิทยาการพัฒนานวัตกรรมทางการศึกษา

DOI

10.58837/CHULA.THE.2023.389

Abstract

การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของวิธีการจัดการข้อมูลรบกวนที่เกิดขึ้นในตัวแปรตามของโมเดลจำแนกกลุ่มข้อมูล ภายใต้สถานการณ์ของข้อมูลรบกวนและโมเดลจำแนกกลุ่มข้อมูลที่แตกต่างกัน โดยเปรียบเทียบวิธีการขจัดข้อมูลรบกวนด้วยตัวกรองข้อมูล 4 วิธี ได้แก่ วิธี Condensed Nearest Neighbor (CNN), วิธี Edited Nearest Neighbors (ENN), วิธี Cross-Validated Committees Filter (CVCF) และ วิธี Iterative Partitioning Filter (IPF) และวิธีการปรับค่าตัวแปรตามที่มีการใช้ตัวกรองข้อมูลรบกวนจากวิธีการขจัดข้อมูลรบกวนร่วมกับการประมาณค่าทดแทนพหุ 3 วิธี ได้แก่ วิธี polytomous regression (polyreg), วิธี random forest (rf) และ วิธี multiple imputation through XGBoost (mixgb) โดยศึกษาผ่านการจำลองข้อมูลแบบมอนติคาร์โล ภายใต้สถานการณ์ของขนาดตัวอย่างเท่ากับ 100, 500 และ 1,000 หน่วย ปริมาณข้อมูลรบกวนเท่ากับ 10%, 20%, 30% และ 40% โดยประสิทธิภาพของวิธีการจัดการข้อมูลรบกวนและโมเดลจำแนกกลุ่มข้อมูล พิจารณาจากค่าความถูกต้อง และค่า F1 ของโมเดลจำแนกกลุ่มข้อมูล 4 วิธี ได้แก่ k-NN, Random Forest, Naïve Bayes และ Support Vector Machine ผลการศึกษาพบว่า วิธีการจัดการข้อมูลรบกวนมีอิทธิพลปฏิสัมพันธ์กับทุกปัจจัย ได้แก่ ขนาดตัวอย่าง อัตราออดของตัวแปรอิสระ ปริมาณข้อมูลรบกวน และโมเดลการจำแนกกลุ่มข้อมูล ที่ส่งผลให้ค่าประสิทธิภาพ F1 แตกต่างกันอย่างมีนัยสำคัญทางสถิติที่ระดับ .05 โดยหากตัวอย่างขนาดเล็ก (n = 100) การปรับค่าตัวแปรตามจะมีแนวโน้มดีกว่าการขจัดข้อมูลรบกวน แต่เมื่อขนาดตัวอย่างขนาดใหญ่ขึ้นทั้ง 2 วิธีจะมีประสิทธิภาพใกล้เคียงกัน เมื่ออัตราออดระดับต่ำ ประสิทธิภาพ F1 ในแต่ละวิธีการจัดการข้อมูลรบกวนมีแนวโน้มสูงกว่าที่อัตราออดระดับกลาง และระดับสูง เมื่อปริมาณข้อมูลรบกวนเพิ่มขึ้นค่าประสิทธิภาพ F1 มีแนวโน้มลดลง และประสิทธิภาพของวิธีการจัดการด้วยการปรับค่าตัวแปรตามมีแนวโน้มดีกว่าในทุกโมเดลจำแนกกลุ่มข้อมูล นอกจากนี้หากพิจารณาประสิทธิภาพของโมเดลเมื่อมีการจัดการข้อมูลรบกวนด้วยวิธีการที่แตกต่างกันภายใต้สถานการณ์ของขนาดตัวอย่าง ปริมาณข้อมูลรบกวน อัตราออดของตัวแปรอิสระที่แตกต่างกันจะพบว่า โมเดล Random Forest มีค่าประสิทธิภาพสูงที่สุดในสถานการณ์ส่วนใหญ่ แต่จะมีประสิทธิภาพแตกต่างจากโมเดลอื่น ๆ ไม่มากนัก

Other Abstract (Other language abstract of ETD)

The objective of this research is to compare the effectiveness of different methods for handling noisy data affecting the dependent variables in classification models under varying conditions of noise and classification models. The comparison involves four noise filtering methods: Condensed Nearest Neighbor (CNN), Edited Nearest Neighbors (ENN), Cross-Validated Committees Filter (CVCF), and Iterative Partitioning Filter (IPF). Additionally, three imputation methods for adjusting dependent variables with filtered noise are compared: polytomous regression (polyreg), random forest (rf), and multiple imputation through XGBoost (mixgb). This study uses Monte Carlo simulations with sample sizes of 100, 500, and 1,000 units and noise levels of 10%, 20%, 30%, and 40%. The effectiveness of noise handling methods and classification models is evaluated based on accuracy and F1 scores of four classification models: k-NN, Random Forest, Naïve Bayes, and Support Vector Machine. The results indicate that the noise handling method interacts significantly with all factors, including sample size, odds ratio, noise level, and classification model, influencing the F1 score significantly at the .05 level. For small sample sizes (n = 100), imputation methods tend to perform better than noise filtering methods. However, as the sample size increases, the performance of both methods becomes similar. With low odds ratios, the F1 score tends to be higher across all noise handling methods compared to medium and high odds ratios. As the noise level increases, the F1 score tends to decrease, and imputation methods generally perform better across all classification models. Additionally, considering the effectiveness of classification models under different sample sizes, noise levels, and odds ratios, the Random Forest model shows the highest performance in most scenarios but only slightly outperforms other models.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.