Chulalongkorn University Theses and Dissertations (Chula ETD)

การเปรียบเทียบวิธีการประมาณค่าสูญหายแบบนอนอิกนอร์เรเบิลในการวิเคราะห์การถดถอยเชิงเส้นพหุ

Other Title (Parallel Title in Other Language of ETD)

Comparison of the estimation methods for nonignorable missing data in multiple linear regression

Year (A.D.)

2012

Document Type

Thesis

First Advisor

อนุภาพ สมบูรณ์สวัสดี

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Degree Name

สถิติศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2012.551

Abstract

ข้อมูลสูญหายเป็นปัญหาที่พบได้ทั่วไปในงานวิจัยทุกสาขา การสูญหายของข้อมูลที่มีความสัมพันธ์กับพารามิเตอร์อาจนำไปสู่ปัญหาที่ร้ายแรงในการวิเคราะห์ข้อมูล ซึ่งการสูญหายในลักษณะนี้เป็นการสูญหายแบบนอนอิกนอร์เรเบิล วิธีการหนึ่งที่ใช้แก้ไขปัญหาดังกล่าวคือการประมาณค่าที่สูญหายโดยวิธีการต่างๆ งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบวิธีการประมาณค่าสูญหายในการวิเคราะห์การถดถอยเชิงเส้นพหุ เมื่อข้อมูลตัวแปรตามมีการสูญหายแบบนอนอิกนอร์เรเบิล วิธีการประมาณค่าสูญหายที่ใช้ในงานการวิจัยนี้คือ วิธี EM Algorithm (EM) วิธี K-Nearest Neighbor Imputation (KNN) และวิธี Predictive Mean Matching Imputation (PMM) ข้อมูลที่ใช้ในการศึกษาได้จากการจำลองโดยมีสัดส่วนของการสูญหาย 3 ระดับคือ 10%, 20%, 30% และมีระดับของการสูญหายแบบนอนอิกนอร์เรเบิล 3 ระดับคือ ไม่มี, ปานกลาง, สูง จากการเปรียบเทียบค่าเฉลี่ยของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (average mean square error; AMSE) พบว่า i) วิธีการประมาณทุกวิธีสามารถประมาณได้ดีขึ้นเมื่อขนาดตัวอย่างมีขนาดใหญ่ขึ้น ii) วิธีการประมาณทุกวิธีประมาณได้แย่ลงเมื่อส่วนเบี่ยงเบนมาตรฐานของค่าความคลาดเคลื่อน สัดส่วนของการสูญหาย และ ระดับของการสูญหายแบบอิกนอร์เรเบิล มีค่าเพิ่มขึ้น iii) โดยรวมแล้วิธี EM ประมาณค่าได้ดีที่สุดเมื่อส่วนเบี่ยงเบนมาตรฐานของค่าความคลาดเคลื่อนมีค่าไม่สูง (10-30) และ iv) วิธี KNN ประมาณค่าได้ดีที่สุดเมื่อส่วนเบี่ยงเบนมาตรฐานของค่าความคลาดเคลื่อนมีค่าสูง (90)

Other Abstract (Other language abstract of ETD)

Problems of missing data are common in all fields of research. When the missingness of data depends on the parameters of interest, this could lead to serious problems. This type of missingness is called “nonignorable". One remedy to deal with missing data is to estimate or to approximate the missing data by various methods. The purpose of this research is to study and to compare the estimation methods under multiple linear regression settings with nonignorable missing data on the dependent variables. The methods for estimating missing data are EM Algorithm (EM), K-Nearest Neighbor Imputation (KNN) and Predictive Mean Matching Imputation (PMM) method. Three levels of missing proportion of data of 10%, 20%, 30% and three levels of nonignorable missingness of none, medium, high are studied from the simulations. Based on the size of average mean square error (AMSE), the findings are the followings: i) all estimation methods perform better as the sample size increases, ii) all estimation methods perform worse as the standard deviation of errors, the missing proportion, or level of nonignorable missingness increase, iii) overall, EM method performs best when the standard deviation of errors are not high (10-30) and iv) KNN method performs best when the standard deviation is high (90).

Share

COinS