Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A comparative analysis of deep learning and traditional methods for imputation of missing body weight data in hospital records: simulation in IPD-ICU setting

Year (A.D.)

2024

Document Type

Thesis

First Advisor

วิฐรา พึ่งพาพงศ์

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติและวิทยาการข้อมูล

DOI

10.58837/CHULA.THE.2024.713

Abstract

การสูญหายของข้อมูลในเวชระเบียนโรงพยาบาล โดยเฉพาะในหอผู้ป่วยหนัก (ICU) และหอผู้ป่วยใน (IPD) เป็นปัญหาที่พบบ่อยและส่งผลต่อการดูแลผู้ป่วยและความถูกต้องของงานวิจัย การศึกษานี้เปรียบเทียบวิธีการแทนค่าสูญหาย 10 วิธี ได้แก่ เทคนิคแบบดั้งเดิม (Mean, Median, k-NN, MICE, MissForest), วิธีแบบผสม (HyperImpute) และวิธีแบบการเรียนรู้เชิงลึกหรือ DL (MLPRegressor, AEImputer, MIWAE, GAIN) โดยใช้ข้อมูลจำลอง 63 ตัวแปร ภายใต้เงื่อนไขควบคุม ได้แก่ ขนาดตัวอย่าง 3 ระดับ (5,000, 25,000, 50,000), กลไกการสูญหาย 3 รูปแบบ (MCAR, MAR, MNAR) และอัตราการสูญหาย 6 ระดับ (10% ถึง 60%) โดยประเมินผลด้วย RMSE, MAPE, เวลาในการประมวลผล และการใช้หน่วยความจำ ผลการศึกษาพบว่า Mean และ Median ยังให้ผลลัพธ์ที่ดี พร้อมความเร็วและใช้ทรัพยากรต่ำ MissForest และ HyperImpute ให้ความแม่นยำที่สมดุลกับประสิทธิภาพ เหมาะกับกรณีที่ข้อมูลขาดในระดับปานกลาง วิธีที่นิยมอย่าง MICE กลับมีข้อจำกัดกับชุดข้อมูลที่ไม่เป็นพาราเมตริก ทำให้ผลลัพธ์ด้อยกว่าในหลายเงื่อนไข ด้าน DL แม้บางวิธีให้ผลลัพธ์ดี แต่ต้องอาศัยการปรับแต่งพารามิเตอร์อย่างละเอียด และใช้ทรัพยากรมาก โดยวิธีกลุ่ม AEs มีความเสถียรที่สุด ส่วน GAIN มีความไวต่อรูปแบบข้อมูลและขนาดตัวอย่าง ให้ผลลัพธ์ไม่สม่ำเสมอ โดยสรุป แม้ DL จะมีศักยภาพ แต่ในหลายกรณี วิธีดั้งเดิมหรือแบบผสมยังคงเป็นทางเลือกที่ใช้งานได้จริงและคุ้มค่า

Other Abstract (Other language abstract of ETD)

Missing data in hospital records especially in Intensive Care Units (ICU) and Inpatient Departments (IPD) is a common problem that can affect patient care and research accuracy. This study compares ten imputation methods, including traditional methods (mean, median, k-NN, MICE, MissForest), a hybrid method (HyperImpute), and deep learning (DL) methods (MLPRegressor, AEImputer, MIWAE, GAIN), to evaluate their performance in handling missing body weight data. A simulated dataset with 63 features was created under controlled conditions, varying across three sample sizes (5,000, 25,000, 50,000), three missingness mechanisms (MCAR, MAR, MNAR), and six missingness rates (10% to 60%). Performance was assessed using RMSE, MAPE, runtime, and memory usage. The results show that simple methods like mean and median still perform well, offering solid baseline performance with minimal resource usage. MissForest and HyperImpute offer a good trade-off between accuracy and computational efficiency, making them suitable for moderate missingness scenarios. Although widely used, the MICE method showed limited adaptability to non-parametric or complex data structures, leading to suboptimal results in several conditions. In contrast, deep learning models gave mixed results. DL sometimes performed well but often required intensive hyperparameter tuning and used more runtime and memory usage. While AEs method showed stable performance, GAIN was sensitive to both missing data patterns and sample sizes, leading to inconsistent outcomes. Overall, while deep learning has potential, it comes with challenges such as sensitivity to hyperparameters and high computational demands. In many practical cases, traditional or hybrid methods may be more effective and easier to implement.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.