Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Applying text mining for classifying disease from symptoms

Year (A.D.)

2018

Document Type

Thesis

First Advisor

เกริก ภิรมย์โสภา

Second Advisor

กฤษณ์ เจริญลาภ

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2018.1139

Abstract

การวินิจฉัยโรคที่คลาดเคลื่อนถือเป็นปัญหาสำคัญในวงการแพทย์ โดยปัจจุบันการวินิจฉัยโรคของแพทย์แต่ละคนจะแตกต่างกันไปตามความรู้ ความชำนาญ และประสบการณ์ที่ได้สั่งสมมา รวมทั้งการวินิจฉัยโรคในบางครั้งแพทย์อาจลืมนึกถึงโรคบางโรคไป เนื่องจากเป็นโรคที่พบเจอได้ยากหรือไม่ค่อยพบเจอในผู้ป่วย ส่งผลให้การวินิจฉัยโรคเกิดความคลาดเคลื่อน โดยหลังจากที่แพทย์ได้ทำการวินิจฉัยโรคแล้ว ขั้นตอนต่อมาคือการจำแนกรหัสไอซีดีเทนซีเอ็มให้กับคำวินิจฉัยนั้น ซึ่งถือเป็นขั้นตอนที่ยุ่งยากสำหรับแพทย์ส่วนใหญ่ ดังนั้นในงานวิจัยนี้จึงมีแนวคิดที่จะนำเสนอแบบจำลองสำหรับจำแนกประเภทโรคจากอาการ โดยการประยุกต์ใช้การทำเหมืองข้อความ เพื่อช่วยแพทย์ในการวินิจฉัยโรคและจำแนกรหัสไอซีดีเทนซีเอ็มได้ด้วยข้อมูลอาการของผู้ป่วย ซึ่งการสร้างแบบจำลองในงานวิจัยนี้จะเลือกใช้ตัวจำแนกประเภทที่นิยมใช้ในการทำเหมืองข้อความ ได้แก่ ต้นไม้ตัดสินใจ การเรียนรู้เบส์อย่างง่าย ซัพพอร์ตเวกเตอร์แมชชีน และโครงข่ายประสาทเทียม มาเปรียบเทียบกันโดยใช้ระยะเวลาที่ใช้ในการสร้างแบบจำลอง ระยะเวลาที่แบบจำลองใช้ในการทำนาย กราฟเส้นโค้งอาร์โอซี อัตราผลบวกจริง อัตราผลบวกเท็จ ค่าความเที่ยง และค่าความแม่นมาเป็นตัวชี้วัด ซึ่งผลลัพธ์ที่ได้พบว่าการใช้โครงข่ายประสาทเทียมเป็นตัวจำแนกประเภทในการสร้างแบบจำลองมีความเหมาะสมที่สุดสำหรับงานวิจัยนี้ เนื่องจากให้อัตราผลบวกจริงสูงสุดที่ร้อยละ 89.03 และมีพื้นที่ใต้เส้นโค้งของกราฟเส้นโค้งอาร์โอซีมากที่สุด

Other Abstract (Other language abstract of ETD)

Nowadays, misdiagnoses account for a significant portion of medical errors. This is due to the fact that each physician’s diagnosis is different depending on the physician’s knowledge, skill, and experience. In several cases, physicians may ignore uncommon diseases. Also, after the diagnosis, the physician has to provide ICD-10-CM code. This is a difficult process for most (if not all) physicians. We propose a predictive model for classifying disease from symptoms by applying text mining technique. Our research technique allows physician to diagnose and to access an ICD-10-CM code directly from symptoms. Our models are based on several classifiers such as Decision Tree, Naïve Bayes, Support Vector Machine, and Neural Network. Models from each classifier were compared using training time, predicting time, Receiver Operating Characteristic (ROC) curve, True Positive Rate (TPR), False Positive Rate (FPR), precision and accuracy. The result suggests that Neural Network gives the best TPR at 89.03%.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.