Chulalongkorn University Theses and Dissertations (Chula ETD)
การเปรียบเทียบวิธีการประมาณค่าสูญหายแบบนอนอิกนอร์เรเบิล ในการวิเคราะห์การถดถอยโลจิสติก
Other Title (Parallel Title in Other Language of ETD)
A comparison of the estimation methods for nonignorable missing-data in logistic regression analysis
Year (A.D.)
2016
Document Type
Thesis
First Advisor
อนุภาพ สมบูรณ์สวัสดี
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2016.1182
Abstract
งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระที่มีการสูญหายแบบนอนอิกนอร์เรเบิล ในการวิเคราะห์การถดถอยโลจิสติกแบบ 2 กลุ่ม เมื่อมีตัวแปรอิสระ 3 ตัว และเกิดการสูญหายในตัวแปรอิสระตัวใดตัวหนึ่ง โดยวิธีการประมาณค่าสูญหายที่ใช้ในงานวิจัยนี้ คือ วิธี Mean Imputation (MEAN) วิธี Median Imputation (MED) วิธี K-Nearest Neighbor (KNN) และ วิธี Multiple Imputation (MI) ข้อมูลที่ใช้ในการศึกษาได้จากการจำลองข้อมูล โดยกำหนดขนาดตัวอย่าง 70, 100 และ 200 ตัวแปรอิสระที่เกิดการสูญหายมีร้อยละของการสูญหายโดยเฉลี่ย 3 ระดับ คือ ร้อยละ 10, 20 และ 30 มีระดับการสูญหายแบบนอนอิกนอร์เรเบิล 3 ระดับ คือ การสูญหายแบบอิกนอร์เรเบิล การสูญหายแบบนอนอิกนอร์เรเบิลระดับปานกลาง และ การสูญหายแบบนอนอิกนอร์เรเบิลระดับสูง และกำหนดค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระทั้ง 3 ตัว คือ 0.5, 1 และ 1.5 ตามลำดับ ทำการจำลองในแต่ละสถานการณ์เป็นจำนวน 5,000 รอบ และเกณฑ์ที่ใช้ในการเปรียบเทียบแต่ละวิธี คือ ค่าเฉลี่ยของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (Average Mean Square Error: AMSE) พบว่า i) วิธี MI จะมีประสิทธิภาพ เมื่อค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระที่สูญหายมีค่าต่ำ และขนาดตัวอย่างมีขนาดเล็ก ii) วิธี MEAN และ วิธี MED จะมีประสิทธิภาพ เมื่อค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระที่สูญหายมีค่าสูง และขนาดตัวอย่างมีขนาดใหญ่ iii) ค่า AMSE มีแนวโน้มเพิ่มขึ้น เมื่อร้อยละการสูญหายและสัดส่วนการสูญหายแบบนอนอิกนอร์เรเบิลเพิ่มขึ้น iv) ค่า AMSE มีแนวโน้มเพิ่มขึ้น เมื่อค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระที่สูญหายมีค่าสูง
Other Abstract (Other language abstract of ETD)
The objective of this research is to compare the estimation methods for nonignorable missing-data of the independent variables in binary logistic regression models with three independent variables. The estimation methods considered in study are Mean Imputation (MEAN), Median Imputation (MED), K-Nearest Neighbor (KNN) and Multiple Imputation (MI). Data of this research are simulated with three sample sizes of 70, 100 and 200. Three levels of missing proportion of data are 10%, 20% and 30% and three levels of nonignorable-missingness of data are ignorable, middle nonignorable and high nonignorable. Coefficients of three independent variables in simulation are set to be 0.5, 1 and 1.5, respectively. The comparison of each methods using the average mean square error (AMSE), the findings are as follows: i) MI method yield higher performance when coefficients of independent variables are low and small sample sizes, ii) MEAN method and MED method yield higher performance when coefficients of independent variables are high and large sample sizes. Iii) the AMSE increase when proportion of nonignorable-missingness of data increase, iv) the AMSE increase when coefficients of independent variables increases.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
นิลภัทรฉัตร, ภัทฐิดา, "การเปรียบเทียบวิธีการประมาณค่าสูญหายแบบนอนอิกนอร์เรเบิล ในการวิเคราะห์การถดถอยโลจิสติก" (2016). Chulalongkorn University Theses and Dissertations (Chula ETD). 19184.
https://digital.car.chula.ac.th/chulaetd/19184