Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Deep learning for coding international classification of diseases (ICD) from medical records using Thai and English corpus
Year (A.D.)
2023
Document Type
Thesis
First Advisor
เกริก ภิรมย์โสภา
Second Advisor
กฤษณ์ เจริญลาภ
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2023.294
Abstract
งานวิจัยนี้เสนอแบบจำลองสำหรับจำแนกรหัสไอซีดีแบบหลายฉลากเพื่อเป็นตัวช่วยจำแนกรหัสไอซีดี การให้รหัสไอซีดีไม่ครบส่งผลให้โรงพยาบาลไม่ได้รับเงินค่าชดเชยอย่างเหมาะสม เราจึงมุ่งเน้นที่จะช่วยโรงพยาบาลให้รหัสไอซีดีอย่างครบถ้วนในขั้นตอนการเบิกจ่ายเงินค่ารักษาพยาบาลซึ่งผลลัพธ์ที่ได้คือการสนับสนุนทางการเงินแก่โรงพยาบาล โดยปกติแล้วปัญหาการให้รหัสไอซีดีแบบหลายฉลากเป็นชุดข้อมูลบันทึกเวชระเบียนที่มีการกระจายตัวแบบหางยาวซึ่งไม่ควรละทิ้งข้อมูลใด ๆ ดังนั้น การจำแนกแบบหลายฉลากของเราจึงเป็นการรวมกันของวิธีการรวมแบบจำลองการเรียนรู้เชิงลึกทั้งสาม (Bidirectional Long-short term memory, Convolutional neural network and Transformer encoder) ด้วยการเลือกค่าทำนายสูงสุดและแบบจำลองทางสถิติคือ Multinomial Naïve Bayes ร่วมกับวิธี Binary Relevance ในส่วนของแบบจำลองการเรียนรู้เชิงลึกจะรับผิดชอบกลุ่มรหัสไอซีดีทั่วไป (โรคที่พบบ่อย) ในขณะที่แบบจำลองทางสถิติจะจัดการกับกลุ่มรหัสไอซีดีพบยาก (โรคที่ผู้ป่วยไม่ค่อยเป็น) ผลการทำนายรหัสไอซีดี-10 จากบันทึกการรักษาด้วยแบบจำลองนี้ให้ค่า Jaccard index ที่ 0.792 สำหรับกลุ่มรหัสไอซีดีทั่วไปและที่ 0.205 สำหรับกลุ่มรหัสไอซีดีพบยาก ส่วนของผลการทำนายรหัสไอซีดี-9 จากบันทึกการให้ยา (หัตถการรักษา) ให้ค่า Jaccard index ที่ 0.963 สำหรับกลุ่มรหัสไอซีดีทั่วไปและที่ 0.201 สำหรับกลุ่มรหัสไอซีดีพบยาก ซึ่งแบบจำลองนี้มีความสามารถในการแนะนำรหัสไอซีดีที่ขั้นตอนการเบิกจ่ายเงินค่ารักษาพยาบาล
Other Abstract (Other language abstract of ETD)
We propose an ensemble model for multi-label ICD classification to assist in ICD coding. An incomplete ICD code prevents hospitals from receiving a full compensation. We aim at helping hospitals to complete the ICD code in the reimbursement process. The eventual result is to financially support the hospital. Naturally, the multi-label ICD is a long-tailed distribution dataset of medical records. No data should be dropped out. Therefore, our multi-label classification is a combination of a maximizing ensemble model which has 3 deep learning models (bidirectional Long-short term memory, convolutional neural network and 4 multi-head attention Transformers) and a binary relevance with multinomial Naïve Bayes (statistical) model. The deep learning models are responsible for frequent ICD codes while the statistical model handles infrequent ones. Our model can predict ICD-10-TM from course notes up to 0.792 of Jaccard index for frequent ICD group and 0.205 for infrequent group. The prediction of ICD-9-CM from medication note with procedures achieves 0.963 of Jaccard index for frequent ICD group and 0.201 for infrequent group. The model is capable of suggesting ICD code in the reimbursement process.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ซาซุม, ณัฐชา, "การเรียนรู้เชิงลึกสำหรับเข้ารหัสบัญชีการจำแนกโรคระหว่างประเทศ (ไอซีดี) จากบันทึกเวชระเบียนโดยใช้คลังข้อมูลภาษาไทยและภาษาอังกฤษ" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 10245.
https://digital.car.chula.ac.th/chulaetd/10245