Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Comparison of the imputation methods in the multiple linear regression model with correlated-nonignorable-missing independent variables
Year (A.D.)
2022
Document Type
Thesis
First Advisor
อนุภาพ สมบูรณ์สวัสดี
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2022.964
Abstract
งานวิจัยนี้มีจุดประสงค์เพื่อศึกษาและเปรียบเทียบวิธีการประมาณสูญหายในตัวแบบการถดถอยเชิงเส้นพหุคูณ ที่ตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิลที่มีความสัมพันธ์กัน ในการศึกษานี้มีวิธีการที่ถูกพัฒนาขึ้นคือ Expected Regression Imputation (ERI) และ Conditional Expected Regression Imputation (CERI) โดยจะเปรียบเทียบประสิทธิภาพวิธีการที่พัฒนาขึ้นมากับอีก 3 วิธีการ ได้แก่ วิธี K-Nearest Neighbor Imputation (KNN), วิธี Expectation Maximization Algorithm (EM) และ วิธี Predictive Mean Matching Imputation (PMM) ) การศึกษานี้ได้ควบคุมปัจจัยความแปรปรวนของตัวแปรอิสระ, ความสัมพันธ์ของตัวแปรอิสระ, ส่วนเบี่ยงเบนมาตรฐานค่าความคลาดเคลื่อน, ร้อยละการสูญหายและระดับ Nonignorability โดยวิธีการที่ให้ค่าเฉลี่ยของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (Average mean square error) น้อยที่สุดจะเป็นวิธีการที่มีประสิทธิภาพสูงที่สุด ผลการวิจัยพบว่า เมื่อข้อมูลมีการกระจายตัวสูงและกลางวิธี KNN มีประสิทธิภาพสูงสุดในทุกกรณีที่ศึกษา แต่ถ้าข้อมูลกระจายตัวต่ำ วิธี KNN จะดีเมื่อกรณีตัวแปรมีความสัมพันธ์กันสูงและร้อยละการสูญหายต่ำ วิธี EM จะประสิทธิภาพสูงเมื่อร้อยละการสูญหายสูงในทุกระดับความสัมพันธ์ วิธี ERI จะประสิทธิภาพสูงเมื่อตัวแปรมีความสัมพันธ์เชิงบวกในระดับกลางลงไปในเกือบทุกกรณีที่ศึกษา วิธี CERI จะประสิทธิภาพสูงเมื่อตัวแปรมีความสัมพันธ์เชิงลบในระดับกลางลงไปและร้อยละการสูญหายต่ำ
Other Abstract (Other language abstract of ETD)
The objective of this research was study and compare imputation methods for independent variables for multiple linear regression model with correlated-nonignorable-missing independent variables. In this study, methods were developed, namely the Expected Regression (ERI) and Conditional Expected Regression Imputation. Comparison of the efficiency of develop methods with 3 methods, namely K-Nearest Neighbor (KNN), Expectation Maximization (EM) and Predictive Mean Matching (PMM). This research has controlled the variance factor of independent variables, the correlation of independent variables, standard deviations of error, missing proportion of data and Nonignorability Level. By the method that makes the average mean square error as little as possible, it is considered the most effective method. The study found that when High and Middle dispersion The KNN method was most effective in all cases studied. But if Low dispersion, KNN was good when variable cases have a high relationship and low missing proportion. The EM method will be high efficiency when the missing proportion is high at all correlation levels. The ERI method was highly effective when variables have a positive correlation in the intermediate or low level in almost all cases studied. The CERI method was high efficiency when variables have a negative correlation in the middle or low to each other and the percentage of loss is low.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ดีมาก, ศุภสันติ์, "การเปรียบเทียบวิธีการใส่ค่าสูญหาย ในตัวแบบการถดถอยเชิงเส้นพหุที่ตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิลที่สัมพันธ์กัน" (2022). Chulalongkorn University Theses and Dissertations (Chula ETD). 6674.
https://digital.car.chula.ac.th/chulaetd/6674