Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Comparison of the imputation methods in the multiple linear regression model with correlated-nonignorable-missing independent variables

Year (A.D.)

2022

Document Type

Thesis

First Advisor

อนุภาพ สมบูรณ์สวัสดี

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2022.964

Abstract

งานวิจัยนี้มีจุดประสงค์เพื่อศึกษาและเปรียบเทียบวิธีการประมาณสูญหายในตัวแบบการถดถอยเชิงเส้นพหุคูณ ที่ตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิลที่มีความสัมพันธ์กัน ในการศึกษานี้มีวิธีการที่ถูกพัฒนาขึ้นคือ Expected Regression Imputation (ERI) และ Conditional Expected Regression Imputation (CERI) โดยจะเปรียบเทียบประสิทธิภาพวิธีการที่พัฒนาขึ้นมากับอีก 3 วิธีการ ได้แก่ วิธี K-Nearest Neighbor Imputation (KNN), วิธี Expectation Maximization Algorithm (EM) และ วิธี Predictive Mean Matching Imputation (PMM) ) การศึกษานี้ได้ควบคุมปัจจัยความแปรปรวนของตัวแปรอิสระ, ความสัมพันธ์ของตัวแปรอิสระ, ส่วนเบี่ยงเบนมาตรฐานค่าความคลาดเคลื่อน, ร้อยละการสูญหายและระดับ Nonignorability โดยวิธีการที่ให้ค่าเฉลี่ยของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (Average mean square error) น้อยที่สุดจะเป็นวิธีการที่มีประสิทธิภาพสูงที่สุด ผลการวิจัยพบว่า เมื่อข้อมูลมีการกระจายตัวสูงและกลางวิธี KNN มีประสิทธิภาพสูงสุดในทุกกรณีที่ศึกษา แต่ถ้าข้อมูลกระจายตัวต่ำ วิธี KNN จะดีเมื่อกรณีตัวแปรมีความสัมพันธ์กันสูงและร้อยละการสูญหายต่ำ วิธี EM จะประสิทธิภาพสูงเมื่อร้อยละการสูญหายสูงในทุกระดับความสัมพันธ์ วิธี ERI จะประสิทธิภาพสูงเมื่อตัวแปรมีความสัมพันธ์เชิงบวกในระดับกลางลงไปในเกือบทุกกรณีที่ศึกษา วิธี CERI จะประสิทธิภาพสูงเมื่อตัวแปรมีความสัมพันธ์เชิงลบในระดับกลางลงไปและร้อยละการสูญหายต่ำ

Other Abstract (Other language abstract of ETD)

The objective of this research was study and compare imputation methods for independent variables for multiple linear regression model with correlated-nonignorable-missing independent variables. In this study, methods were developed, namely the Expected Regression (ERI) and Conditional Expected Regression Imputation. Comparison of the efficiency of develop methods with 3 methods, namely K-Nearest Neighbor (KNN), Expectation Maximization (EM) and Predictive Mean Matching (PMM). This research has controlled the variance factor of independent variables, the correlation of independent variables, standard deviations of error, missing proportion of data and Nonignorability Level. By the method that makes the average mean square error as little as possible, it is considered the most effective method. The study found that when High and Middle dispersion The KNN method was most effective in all cases studied. But if Low dispersion, KNN was good when variable cases have a high relationship and low missing proportion. The EM method will be high efficiency when the missing proportion is high at all correlation levels. The ERI method was highly effective when variables have a positive correlation in the intermediate or low level in almost all cases studied. The CERI method was high efficiency when variables have a negative correlation in the middle or low to each other and the percentage of loss is low.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.