Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
The comparison for cause of death analysis algorithms on verbal autopsy under incomplete data
Year (A.D.)
2023
Document Type
Thesis
First Advisor
อนุภาพ สมบูรณ์สวัสดี
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2023.714
Abstract
การศึกษาการเปรียบเทียบประสิทธิภาพของอัลกอริทึมในการวิเคราะห์หาสาเหตุการตายจากการสัมภาษณ์ (Verbal Autopsy) เมื่อมีระดับความไม่สมบูรณ์ของข้อมูลที่ต่างกัน ทำโดยเปรียบเทียบ 5 อัลกอริทึมในการแปลผลหาสาเหตุการตาย คือ InSilicoVA InterVA-5 Tariff Naïve Bayes Classifiers (NBC) และ Random Forest (RF) ในการจำแนกหาสาเหตุการตายเมื่อไม่มีการหายของข้อมูล มีการหายของข้อมูล 5% มีการหายของข้อมูล 10% และ มีการหายของข้อมูล 20% โดยเกณฑ์วัดในการประเมินประสิทธิภาพของอัลกอริทึมคือ ระยะเวลาในการทำงาน ค่าความถูกต้อง ค่า Chance-Concordance Corrected (CCC) ค่า Cause Specific Mortality Fraction (CMSF) accuracy ค่า Sensitivity และ ค่า Specificity ซึ่งข้อมูลที่นำการวิเคราะห์ในงานวิจัยนี้คือข้อมูล PHMRC Gold Standard ที่เป็นข้อมูลของผู้ใหญ่จำนวน 7,841 ตัวอย่าง จากการศึกษาพบว่าข้อมูลสมบูรณ์ทำให้มีประสิทธิภาพดีกว่าข้อมูลที่มีการทำให้หาย มีค่าตัวชี้วัดดีกว่าในทุกระดับการหายของข้อมูลและตัวชี้วัดข้างต้นที่กล่าวมาจะค่อยๆ ลดลงตามระดับการหายที่เพิ่มขึ้น VA อัลกอริทึมที่มีประสิทธิภาพในการแปลผลดีที่สุดคือ RF ในทุกระดับการหายของข้อมูลจากทุกดัชนีชี้วัดยกเว้นระยะเวลาในการทำงานและกลุ่มที่ใช้วิธีคิดแบบ data-driven อัลกอริทึมเช่น RF, Tariff และ NBC จะมีประสิทธิภาพในการแปลผลดีกว่า InSilicoVA และ InterVA 5 อาจเป็นเพราะเมื่อข้อมูลที่ใช้ในชุดเรียนรู้ในมีความครบถ้วนและสะท้อนกับข้อมูลชุดทดสอบแตกต่างกับวิธีที่ใช้หลักทางสถิติที่จะใช้ข้อมูลในการแปลผลข้อมูลมาจากแพทย์หรือผู้เชี่ยวชาญมากกว่าให้อัลกอริทึมการแปลผลเรียนรู้จากชุดเรียนรู้
Other Abstract (Other language abstract of ETD)
The purpose of this study is to compare performances of cause-of-death analysis algorithms from the verbal autopsy of five VA algorithms: InSilicoVA, InterVA-5, Tariff, Naïve Bayes Classifiers (NBC), and Random Forest (RF) under the presence of incomplete data with a level of missing are Not missing, 5%, 10%, and 20% of missing. To validate the performance through various metrics: VA algorithms Runtime, Accuracy, Chance-Concordance Corrected (CCC), Cause-Specific Mortality Fraction (CSMF) Accuracy, Sensitivity, and Specificity using 7,841 adults PHMRC Gold standard dataset. The findings reveal that complete data improves model performance over incomplete data in all metrics and the efficiency of the performance declines with increasing incompleteness, except for runtime. The VA algorithm the best performed is Random Forest due to data-driven algorithms which the algorithms learn from existing data in the training set—likewise, Tariff and NBC method. Additionally, expert-driven algorithms like InterVA-5 and InSilicoVA perform the worst because expert-driven algorithms which training data sets generated from expert opinion. It uses a restricted set of signs and symptoms compared to the data-driven VA algorithms.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
สุวันทารัตน์, ณัชชา, "การเปรียบเทียบอัลกอริทึมวิเคราะห์หาสาเหตุการตายโดยการสัมภาษณ์เมื่อมีข้อมูลไม่สมบูรณ์" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 11255.
https://digital.car.chula.ac.th/chulaetd/11255