Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
ต้นเเบบการเรียนรู้ของเครื่องเเบบจําเเนกเเบบไบนารี เเละการจําเเนกประเภทหลายเลเบลสําหรับการวิเคราะห์การรอดชีพเวลาไม่ต่อเนื่อง: กรณีศึกษาเพื่อทํานายภาวะโรคเเทรกซ้อน เเละอัตราเสียชีวิตจากผู้ป่วยโรคเบาหวานประเทศไทย
Year (A.D.)
2023
Document Type
Thesis
First Advisor
Vitara Pungpapong
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Statistics and Data Science
DOI
10.58837/CHULA.THE.2023.691
Abstract
In this research, we address the issue of predicting complications among Thai diabetic patients, considering the interconnected nature of these complications. Noncommunicable diseases (NCDs) such as Type-I and Type-II diabetes impose a significant global health burden, with major complications such as cardiovascular disease being the leading cause. Early detection of complications is crucial, and survival analysis emerges as a key method for this task. While classical approaches focus on continuous-time survival prediction, the advancement of machine learning has enabled the development of discrete-time survival classification. This thesis conducts a comprehensive analysis of survival prediction for Diabetes-related complications, employing six machine learning classification methods. Three methods, namely Extreme Gradient Boosting (XGBoost), Support Vector Machine (SVM), and Neural Network (NN), handle binary classification tasks, while Backpropagation for Multi-label Learning (BP-MLL), Multi-label Twin Support Vector Machine (MLTSVM), and Oblique Predictive Clustering Trees (OQPCTs) address multi-label classification tasks. The dataset used in this research was obtained from the Ministry of Public Health of Thailand, where two million individuals aged 35 or above who have diabetes were randomly selected. ,There are five focusing on major complications including Cardiovascular disease, Cerebrovascular disease, Retinopathy, Kidney disease, and Mortality. We found that XGBoost outperforms all the considered methods in terms of prediction accuracy. Additionally, this study discusses the limitations associated with each method, highlighting the challenges posed by class imbalance that impact their efficacy in classifying survival outcomes.
Other Abstract (Other language abstract of ETD)
ในงานวิจัยนี้ ผู้วิจัยสนใจเรื่องการทำนายภาวะแทรกซ้อนในผู้ป่วยเบาหวานในประเทศไทย โดยพิจารณาถึงลักษณะที่เชื่อมโยงกันของโรคเหล่านี้ กลุ่มโรคไม่ติดต่อเรื้อรังเช่น โรคเบาหวานประเภท 1 และโรคเบาหวานประเภท 2 มีการก่อให้เกิดภาระสุขภาพโลกที่สำคัญ โดยมีภาวะแทรกซ้อนหลัก เช่น โรคหัวใจและหลอดเลือดเป็นสาเหตุหลัก การตรวจพบโรคในระยะเริ่มต้นของภาวะแทรกซ้อนช และการวิเคราะห์การรอดชีพเป็นวิธีหลักสำหรับงานนี้ ในขณะที่วิธีการคลาสสิคเน้นการทำนายการอยู่รอดในเวลาต่อเนื่อง การพัฒนาของเครื่องมือการเรียนรู้ของเครื่องได้เป็นที่สำคัญสำหรับการพัฒนาขั้นสูงของการทำนายการอยู่รอดในช่วงเวลาแบบไม่ต่อเนื่อง วิทยานิพนธ์นี้จะดำเนินการวิเคราะห์อย่างละเอียดเกี่ยวกับการทำนายการอยู่รอดสำหรับภาวะแทรกซ้อนที่เกี่ยวข้องกับโรคเบาหวาน โดยใช้เครื่องมือการจำแนกประเภทการเรียนรู้ทั้งหกวิธี สามวิธีจะเป็นวิธีในการจำแนกข้อมูลทวิ ได้แก่ คือ วิธี (XGBoost), วิธี( SVM), และวิธีโครงข่ายประสาทเทียม (Neural Network), นอกจากนี้ยังใช้วิธีในการจำแนกประเภทหลายป้ายชื่ออีก 3 วิธี ได้แก่ วิธี Backpropagation สำหรับ Multi-label Learning (BP-MLL) วิธี Multi-label Twin Support Vector Machine (MLTSVM), และวิธี Oblique Predictive Clustering Trees (OPCTs) จัดการกับงานจำแนกประเภทที่เป็นหลายป้ายชื่อ ชุดข้อมูลที่ใช้ในงานวิจัยนี้ได้รับจากกระทรวงสาธารณสุขของประเทศไทย โดยสุ่มเลือกผู้ป่วยคนที่อายุ 35 ปีขึ้นไปที่เป็นเบาหวาน สำหรับกับภาวะแทรกซ้อนหลัก 5 อย่าง ได้แก่ โรคหัวใจและหลอดเลือด, โรคหลอดเลือดที่เกี่ยวกับสมอง, โรคตาเสื่อม, โรคไต และการเสียชีวิต การศึกษานี้พบว่าวิธี XGBoost มีประสิทธิภาพดีกว่าในแง่ของความถูกต้องในการพยากรณ์จากวิธีทั้งหมดที่พิจารณาไว้ นอกจากนี้ การศึกษานี้ยังได้กล่าวถึงข้อจำกัดที่เกี่ยวข้องกับแต่ละวิธี และความท้าทายที่เกิดขึ้นจากความไม่สมดุลของคลาสซึ่งมีผลต่อประสิทธิภาพในการจำแนกผลการอยู่รอด
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Chheang, Heng, "Binary and multi-label machine learning models for discrete-time survival analysis: a case study to predict complications and mortality in Thai diabetic patients" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 11286.
https://digital.car.chula.ac.th/chulaetd/11286