Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
A comparative analysis of deep learning and traditional methods for imputation of missing body weight data in hospital records: simulation in IPD-ICU setting
Year (A.D.)
2024
Document Type
Thesis
First Advisor
วิฐรา พึ่งพาพงศ์
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติและวิทยาการข้อมูล
DOI
10.58837/CHULA.THE.2024.713
Abstract
การสูญหายของข้อมูลในเวชระเบียนโรงพยาบาล โดยเฉพาะในหอผู้ป่วยหนัก (ICU) และหอผู้ป่วยใน (IPD) เป็นปัญหาที่พบบ่อยและส่งผลต่อการดูแลผู้ป่วยและความถูกต้องของงานวิจัย การศึกษานี้เปรียบเทียบวิธีการแทนค่าสูญหาย 10 วิธี ได้แก่ เทคนิคแบบดั้งเดิม (Mean, Median, k-NN, MICE, MissForest), วิธีแบบผสม (HyperImpute) และวิธีแบบการเรียนรู้เชิงลึกหรือ DL (MLPRegressor, AEImputer, MIWAE, GAIN) โดยใช้ข้อมูลจำลอง 63 ตัวแปร ภายใต้เงื่อนไขควบคุม ได้แก่ ขนาดตัวอย่าง 3 ระดับ (5,000, 25,000, 50,000), กลไกการสูญหาย 3 รูปแบบ (MCAR, MAR, MNAR) และอัตราการสูญหาย 6 ระดับ (10% ถึง 60%) โดยประเมินผลด้วย RMSE, MAPE, เวลาในการประมวลผล และการใช้หน่วยความจำ ผลการศึกษาพบว่า Mean และ Median ยังให้ผลลัพธ์ที่ดี พร้อมความเร็วและใช้ทรัพยากรต่ำ MissForest และ HyperImpute ให้ความแม่นยำที่สมดุลกับประสิทธิภาพ เหมาะกับกรณีที่ข้อมูลขาดในระดับปานกลาง วิธีที่นิยมอย่าง MICE กลับมีข้อจำกัดกับชุดข้อมูลที่ไม่เป็นพาราเมตริก ทำให้ผลลัพธ์ด้อยกว่าในหลายเงื่อนไข ด้าน DL แม้บางวิธีให้ผลลัพธ์ดี แต่ต้องอาศัยการปรับแต่งพารามิเตอร์อย่างละเอียด และใช้ทรัพยากรมาก โดยวิธีกลุ่ม AEs มีความเสถียรที่สุด ส่วน GAIN มีความไวต่อรูปแบบข้อมูลและขนาดตัวอย่าง ให้ผลลัพธ์ไม่สม่ำเสมอ โดยสรุป แม้ DL จะมีศักยภาพ แต่ในหลายกรณี วิธีดั้งเดิมหรือแบบผสมยังคงเป็นทางเลือกที่ใช้งานได้จริงและคุ้มค่า
Other Abstract (Other language abstract of ETD)
Missing data in hospital records especially in Intensive Care Units (ICU) and Inpatient Departments (IPD) is a common problem that can affect patient care and research accuracy. This study compares ten imputation methods, including traditional methods (mean, median, k-NN, MICE, MissForest), a hybrid method (HyperImpute), and deep learning (DL) methods (MLPRegressor, AEImputer, MIWAE, GAIN), to evaluate their performance in handling missing body weight data. A simulated dataset with 63 features was created under controlled conditions, varying across three sample sizes (5,000, 25,000, 50,000), three missingness mechanisms (MCAR, MAR, MNAR), and six missingness rates (10% to 60%). Performance was assessed using RMSE, MAPE, runtime, and memory usage. The results show that simple methods like mean and median still perform well, offering solid baseline performance with minimal resource usage. MissForest and HyperImpute offer a good trade-off between accuracy and computational efficiency, making them suitable for moderate missingness scenarios. Although widely used, the MICE method showed limited adaptability to non-parametric or complex data structures, leading to suboptimal results in several conditions. In contrast, deep learning models gave mixed results. DL sometimes performed well but often required intensive hyperparameter tuning and used more runtime and memory usage. While AEs method showed stable performance, GAIN was sensitive to both missing data patterns and sample sizes, leading to inconsistent outcomes. Overall, while deep learning has potential, it comes with challenges such as sensitivity to hyperparameters and high computational demands. In many practical cases, traditional or hybrid methods may be more effective and easier to implement.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ม่วงนาค, เมธัส, "การศึกษาเปรียบเทียบการแทนค่าน้ำหนักสูญหายด้วยวิธีการเรียนรู้เชิงลึกกับวิธีดั้งเดิมด้วยวิธีการจำลองข้อมูลในบริบทของผู้ป่วยในและหอผู้ป่วยหนักภายในโรงพยาบาล" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 74551.
https://digital.car.chula.ac.th/chulaetd/74551