Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Comparison of the efficiency of imputation methods in multilevel data: applications to educational inequality analysis

Year (A.D.)

2021

Document Type

Thesis

First Advisor

ประภาศิริ รัชชประภาพรกุล

Second Advisor

สิวะโชติ ศรีสุทธิยากร

Faculty/College

Faculty of Education (คณะครุศาสตร์)

Department (if any)

Department of Educational Research and Psychology (ภาควิชาวิจัยและจิตวิทยาการศึกษา)

Degree Name

ครุศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติและสารสนเทศการศึกษา

DOI

10.58837/CHULA.THE.2021.1066

Abstract

การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อ (1) เพื่อเปรียบเทียบประสิทธิภาพของวิธีทดแทนค่าข้อมูลสูญหาย 3 วิธี ได้แก่วิธี MI-FCS, วิธี RF และวิธี Opt.impute ซึ่งประกอบด้วย วิธี Opt.knn , Opt.tree, วิธี Opt.svm, และวิธี Opt.cv โดยใช้การจำลองข้อมูลและนำผลที่ได้มาประยุกต์ใช้กับข้อมูลจริง (2) เพื่อวิเคราะห์ความเหลื่อมล้ำทางการศึกษา ด้วยโมเดลพหุระดับโดยใช้ข้อมูลที่มีการทดแทนค่าสูญหาย และเปรียบเทียบผลที่ได้ กับการวิเคราะห์ความเหลื่อมล้ำทางการศึกษาที่ไม่ได้ทดแทนค่าสูญหาย ผลการวิจัยพบว่า (1) จากการพิจารณาผลการเปรียบเทียบประสิทธิภาพของวิธีทดแทนค่าสูญหายโดยใช้การจำลองข้อมูลในภาพรวม จะพบว่าส่วนใหญ่วิธีทดแทนค่าสูญหาย Otp.impute มีแนวโน้มให้ประสิทธิภาพสูงที่สุด รองลงมาคือ วิธีทดแทนค่าสูญหาย RF และวิธีทดแทนค่าสูญหาย MI – FCS ตามลำดับ (2) ผู้วิจัยรวบรวมข้อมูลทุติยภูมิของนักเรียนชั้นมัธยมศึกษาปีที่ 3 จากสถาบันทดสอบทางการศึกษาแห่งชาติ (สทศ.) ปีการศึกษา 2563 จำนวน 2,109 โรงเรียนที่อยู่ในสังกัดสำนักเขตพื้นที่การศึกษามัธยมศึกษา(สพม.) นำวิธีทดแทนค่าสูญหายที่ได้จากการจำลองข้อมูลมาประยุกต์ใช้กับข้อมูลทุติยภูมิดังกล่าว ผลการวิจัย จะพบว่าสัดส่วนของนักเรียนที่ครอบครัวขาดแคลนทุนทรัพย์และไม่ได้พักอาศัยอยู่กับบิดามารดาระดับโรงเรียน ส่งผลกระทบต่อผลสัมฤทธิ์ ทางการเรียนของนักเรียนระดับโรงเรียน อย่างมีนัยสำคัญทางสถิติ โดยผลกระทบที่เกิดขึ้นสะท้อนให้เห็นถึงความเหลื่อมล้ำทางการศึกษา และเมื่อเปรียบเทียบผลที่ได้กับการวิเคราะห์ความเหลื่อมล้ำทางการศึกษาที่ไม่ได้ทดแทนค่าสูญหาย แสดงให้เห็นว่าหากนำข้อมูลวิเคราะห์ผลการวิจัยโดยไม่คำนึงถึงค่าสูญหาย หรือตัดค่าสูญหายทิ้ง อาจจะส่งผลกระทบต่อการประมาณค่าพารามิเตอร์ที่แท้จริง อย่างมีนัยสำคัญทางสถิติ หรือไม่สามารถอนุมานไปสู่ประชากรได้อย่างถูกต้องและแม่นยำ

Other Abstract (Other language abstract of ETD)

The purposes of this research were to (1) compare the efficiency of multiple Imputation methods of multilevel missing data as the three methods of the Imputation included Multiple Imputation Fully Conditional Specification (MI – FCS), Random Forest (RF), and the four type of Optimal Impute (opt. impute) include Opt.knn , Opt.tree, Opt.svm and Opt.cv . A simulation study based on real-population educational data with a random coefficients model then applied the results to real data. (2) analyze the educational inequality using the multilevel analysis the using data had substituted the missing values already. Compare the results with the analysis of educational inequality that does not compensate for the missing value. The findings were as follows: (1) the Opt.impute method has the highest efficiency. This method can reduce constraints. It's flexible and increases the efficiency of multiple imputation method in multilevel data. Although types of missing data are complex and severe. followed by RF method and MI – FCS method respectively. ( 2 ) The researcher applied the secondary data of Junior High School students at the school level. The data of 2,109 schools within 42 educational clusters in the year 2020 from "The National Institute of Educational Testing Service ( Public Organization) or NIETS ". Results from the study show the influence of Proportion of students whose families are underfunded and do not live with their parents school level on achievement in each education. Service areas toward educational inequality were low, while school under influences achievement significantly, the impact reflects the educational inequality. The results were compared with the analysis of educational inequality that does not compensate for missing values . The research findings show that if the data is analyzed regardless of the missing value or the value is omitted, it cannot be inferred to the population accurately and precisely or it may affect the actual parameter estimation. statistically significant or cannot be accurately and accurately inferred to the population.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.