Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

The comparison for cause of death analysis algorithms on verbal autopsy under incomplete data

Year (A.D.)

2023

Document Type

Thesis

First Advisor

อนุภาพ สมบูรณ์สวัสดี

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2023.714

Abstract

การศึกษาการเปรียบเทียบประสิทธิภาพของอัลกอริทึมในการวิเคราะห์หาสาเหตุการตายจากการสัมภาษณ์ (Verbal Autopsy) เมื่อมีระดับความไม่สมบูรณ์ของข้อมูลที่ต่างกัน ทำโดยเปรียบเทียบ 5 อัลกอริทึมในการแปลผลหาสาเหตุการตาย คือ InSilicoVA InterVA-5 Tariff Naïve Bayes Classifiers (NBC) และ Random Forest (RF) ในการจำแนกหาสาเหตุการตายเมื่อไม่มีการหายของข้อมูล มีการหายของข้อมูล 5% มีการหายของข้อมูล 10% และ มีการหายของข้อมูล 20% โดยเกณฑ์วัดในการประเมินประสิทธิภาพของอัลกอริทึมคือ ระยะเวลาในการทำงาน ค่าความถูกต้อง ค่า Chance-Concordance Corrected (CCC) ค่า Cause Specific Mortality Fraction (CMSF) accuracy ค่า Sensitivity และ ค่า Specificity ซึ่งข้อมูลที่นำการวิเคราะห์ในงานวิจัยนี้คือข้อมูล PHMRC Gold Standard ที่เป็นข้อมูลของผู้ใหญ่จำนวน 7,841 ตัวอย่าง จากการศึกษาพบว่าข้อมูลสมบูรณ์ทำให้มีประสิทธิภาพดีกว่าข้อมูลที่มีการทำให้หาย มีค่าตัวชี้วัดดีกว่าในทุกระดับการหายของข้อมูลและตัวชี้วัดข้างต้นที่กล่าวมาจะค่อยๆ ลดลงตามระดับการหายที่เพิ่มขึ้น VA อัลกอริทึมที่มีประสิทธิภาพในการแปลผลดีที่สุดคือ RF ในทุกระดับการหายของข้อมูลจากทุกดัชนีชี้วัดยกเว้นระยะเวลาในการทำงานและกลุ่มที่ใช้วิธีคิดแบบ data-driven อัลกอริทึมเช่น RF, Tariff และ NBC จะมีประสิทธิภาพในการแปลผลดีกว่า InSilicoVA และ InterVA 5 อาจเป็นเพราะเมื่อข้อมูลที่ใช้ในชุดเรียนรู้ในมีความครบถ้วนและสะท้อนกับข้อมูลชุดทดสอบแตกต่างกับวิธีที่ใช้หลักทางสถิติที่จะใช้ข้อมูลในการแปลผลข้อมูลมาจากแพทย์หรือผู้เชี่ยวชาญมากกว่าให้อัลกอริทึมการแปลผลเรียนรู้จากชุดเรียนรู้

Other Abstract (Other language abstract of ETD)

The purpose of this study is to compare performances of cause-of-death analysis algorithms from the verbal autopsy of five VA algorithms: InSilicoVA, InterVA-5, Tariff, Naïve Bayes Classifiers (NBC), and Random Forest (RF) under the presence of incomplete data with a level of missing are Not missing, 5%, 10%, and 20% of missing. To validate the performance through various metrics: VA algorithms Runtime, Accuracy, Chance-Concordance Corrected (CCC), Cause-Specific Mortality Fraction (CSMF) Accuracy, Sensitivity, and Specificity using 7,841 adults PHMRC Gold standard dataset. The findings reveal that complete data improves model performance over incomplete data in all metrics and the efficiency of the performance declines with increasing incompleteness, except for runtime. The VA algorithm the best performed is Random Forest due to data-driven algorithms which the algorithms learn from existing data in the training set—likewise, Tariff and NBC method. Additionally, expert-driven algorithms like InterVA-5 and InSilicoVA perform the worst because expert-driven algorithms which training data sets generated from expert opinion. It uses a restricted set of signs and symptoms compared to the data-driven VA algorithms.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.