Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A comparison of the imputation methods for nonignorable missing response variable in logistic regression analysis

Year (A.D.)

2023

Document Type

Thesis

First Advisor

อนุภาพ สมบูรณ์สวัสดี

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2023.707

Abstract

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการใส่ค่าสูญหาย ในการวิเคราะห์การถดถอยโลจิสติก เมื่อตัวแปรตามมีการสูญหายแบบนอนอิกนอร์เรเบิล วิธีการที่ใช้ศึกษา คือ วิธี Complete Case Analysis (CC) วิธี Mode Imputation (MODE) วิธี Expectation Maximization Algorithm (EM) วิธี Multiple Imputation (MI) วิธี Hard Cutoff Augmentation (HARDCUT) วิธี Parceling Augmentation (PARCELING) และวิธี Fuzzy Augmentation (FUZZY) งานวิจัยนี้ใช้การจำลองข้อมูลในการศึกษาตามขนาดของตัวอย่าง ร้อยละของการสูญหายของข้อมูล และระดับของการสูญหายแบบนอนอิกนอร์เรเบิล การจำลองข้อมูลในแต่ละสถานการณ์จะกระทำ 5,000 รอบ โดยมีเกณฑ์ที่ใช้เปรียบเทียบประสิทธิภาพของวิธีการใส่ค่าสูญหาย ได้แก่ ค่าเฉลี่ยของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (Average Mean Squared Error: AMSE) ของค่าประมาณความน่าจะเป็นของการเกิดเหตุการณ์ที่สนใจ (P(Y = 1)) และค่าประสิทธิภาพสัมพัทธ์ (Relative Efficiency: RE) จากผลการทดลองสรุปได้ว่า ค่า AMSE จะลดลงเมื่อขนาดของตัวอย่างใหญ่ขึ้น และจะมีค่ามากขึ้นเมื่อร้อยละของการสูญหายของข้อมูลเพิ่มขึ้น เมื่อพิจารณาผลของระดับของการสูญหายแบบนอนอิกนอร์เรเบิลต่อค่า AMSE พบว่ามีเพียง AMSE ของวิธี MODE เท่านั้นที่มีแนวโน้มเพิ่มขึ้น เมื่อระดับของการสูญหายแบบนอนอิกนอร์เรเบิลเพิ่มขึ้น และเมื่อพิจารณาค่า RE โดยเปรียบเทียบ AMSE ของวิธี CC กับวิธีการใส่ค่าสูญหายวิธีอื่น พบว่า วิธี EM และวิธี FUZZY ให้ค่า AMSE เท่ากับ AMSE ของวิธี CC ในขณะที่ AMSE ของวิธีอื่น ๆ มีค่าน้อยกว่า AMSE ของวิธี CC

Other Abstract (Other language abstract of ETD)

The objective of this research is to compare the imputation methods for nonignorable missing response variable in logistic regression analysis with three independent variables. The imputation methods used in this research are Complete Case Analysis (CC), Mode Imputation (MODE), Expectation Maximization (EM), Multiple Imputation (MI), Hard Cutoff Augmentation (HARDCUT), Parceling Augmentation and Fuzzy Augmentation (FUZZY). This research simulates the data based on the sample size, percentage of missingness, and the level of nonignorable. Each scenario is performed in 5,000 iterations. The comparison of imputation methods uses the Average Mean Squared Error (AMSE) and Relative Efficiency (RE). The findings indicate that AMSE will decrease with a larger sample size and increase with a higher percentage of missingness. The increase in the level of nonignorable affects the increase of the AMSE of the MODE method. The AMSE of the MODE method tends to increase with a higher level of nonignorable. Moreover, when considering RE calculated by comparing the AMSE of the CC method with the AMSE of other methods. The finding indicates that the AMSE of the EM and FUZZY methods are equivalent to the AMSE of the CC method while the AMSE of other methods are less than the AMSE of the CC method.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.