Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Deep learning for coding international classification of diseases (ICD) from medical records using Thai and English corpus

Year (A.D.)

2023

Document Type

Thesis

First Advisor

เกริก ภิรมย์โสภา

Second Advisor

กฤษณ์ เจริญลาภ

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2023.294

Abstract

งานวิจัยนี้เสนอแบบจำลองสำหรับจำแนกรหัสไอซีดีแบบหลายฉลากเพื่อเป็นตัวช่วยจำแนกรหัสไอซีดี การให้รหัสไอซีดีไม่ครบส่งผลให้โรงพยาบาลไม่ได้รับเงินค่าชดเชยอย่างเหมาะสม เราจึงมุ่งเน้นที่จะช่วยโรงพยาบาลให้รหัสไอซีดีอย่างครบถ้วนในขั้นตอนการเบิกจ่ายเงินค่ารักษาพยาบาลซึ่งผลลัพธ์ที่ได้คือการสนับสนุนทางการเงินแก่โรงพยาบาล โดยปกติแล้วปัญหาการให้รหัสไอซีดีแบบหลายฉลากเป็นชุดข้อมูลบันทึกเวชระเบียนที่มีการกระจายตัวแบบหางยาวซึ่งไม่ควรละทิ้งข้อมูลใด ๆ ดังนั้น การจำแนกแบบหลายฉลากของเราจึงเป็นการรวมกันของวิธีการรวมแบบจำลองการเรียนรู้เชิงลึกทั้งสาม (Bidirectional Long-short term memory, Convolutional neural network and Transformer encoder) ด้วยการเลือกค่าทำนายสูงสุดและแบบจำลองทางสถิติคือ Multinomial Naïve Bayes ร่วมกับวิธี Binary Relevance ในส่วนของแบบจำลองการเรียนรู้เชิงลึกจะรับผิดชอบกลุ่มรหัสไอซีดีทั่วไป (โรคที่พบบ่อย) ในขณะที่แบบจำลองทางสถิติจะจัดการกับกลุ่มรหัสไอซีดีพบยาก (โรคที่ผู้ป่วยไม่ค่อยเป็น) ผลการทำนายรหัสไอซีดี-10 จากบันทึกการรักษาด้วยแบบจำลองนี้ให้ค่า Jaccard index ที่ 0.792 สำหรับกลุ่มรหัสไอซีดีทั่วไปและที่ 0.205 สำหรับกลุ่มรหัสไอซีดีพบยาก ส่วนของผลการทำนายรหัสไอซีดี-9 จากบันทึกการให้ยา (หัตถการรักษา) ให้ค่า Jaccard index ที่ 0.963 สำหรับกลุ่มรหัสไอซีดีทั่วไปและที่ 0.201 สำหรับกลุ่มรหัสไอซีดีพบยาก ซึ่งแบบจำลองนี้มีความสามารถในการแนะนำรหัสไอซีดีที่ขั้นตอนการเบิกจ่ายเงินค่ารักษาพยาบาล

Other Abstract (Other language abstract of ETD)

We propose an ensemble model for multi-label ICD classification to assist in ICD coding. An incomplete ICD code prevents hospitals from receiving a full compensation. We aim at helping hospitals to complete the ICD code in the reimbursement process. The eventual result is to financially support the hospital. Naturally, the multi-label ICD is a long-tailed distribution dataset of medical records. No data should be dropped out. Therefore, our multi-label classification is a combination of a maximizing ensemble model which has 3 deep learning models (bidirectional Long-short term memory, convolutional neural network and 4 multi-head attention Transformers) and a binary relevance with multinomial Naïve Bayes (statistical) model. The deep learning models are responsible for frequent ICD codes while the statistical model handles infrequent ones. Our model can predict ICD-10-TM from course notes up to 0.792 of Jaccard index for frequent ICD group and 0.205 for infrequent group. The prediction of ICD-9-CM from medication note with procedures achieves 0.963 of Jaccard index for frequent ICD group and 0.201 for infrequent group. The model is capable of suggesting ICD code in the reimbursement process.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.