Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การรู้จำเสียงอัตโนมัติที่รองรับภาษาไทย-อังกฤษสำหรับการออกรายงานการส่องกล้อง

Year (A.D.)

2024

Document Type

Thesis

First Advisor

Peerapon Vateekul

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

Master of Engineering

Degree Level

Master's Degree

Degree Discipline

Computer Engineering

DOI

10.58837/CHULA.THE.2024.976

Abstract

This thesis presents the automatic speech recognition (ASR) system for endoscopic reporting that supports Thai-English code-switching. During endoscopic procedures, gastroenterologists are required to use both hands to handle instruments, thereby complicating the real-time documentation of abnormal findings. While recent advances in speech recognition offer promising solutions, existing models face difficulties with Thai-English code-switching and tend to overfit when fine-tuned on limited datasets. To overcome these limitations, we propose an ASR model enhanced with the Mixture of Experts (MoE) technique to improve transcription accuracy. Furthermore, the Named Entity Recognition (NER) model extracts gastrointestinal (GI) terminology from the transcriptions and classifies its categories to facilitate the reporting process. Experimental results show that our ASR model achieves low word error rates (GI: 1.12%, Thai: 2.06%) and high recall for medical (96.53%) and non-medical terms (95.85%), outperforming baseline models. The NER model demonstrates strong performance in terms of F1-score, recall, and precision (96.11%,96.06%, and 96.16%, respectively).

Other Abstract (Other language abstract of ETD)

วิทยานิพนธ์นี้นำเสนอระบบรู้จำเสียงอัตโนมัติ (ASR) สำหรับการออกรายงานการส่องกล้อง ที่รองรับการสลับภาษาระหว่างภาษาไทยและภาษาอังกฤษ ในระหว่างกระบวนการส่องกล้อง แพทย์ระบบทางเดินอาหารจำเป็นต้องใช้มือทั้งสองข้างในการควบคุมอุปกรณ์ ส่งผลให้การบันทึกข้อมูลความผิดปกติแบบทันทีเป็นเรื่องยาก แม้ว่าการพัฒนาล่าสุดในเทคโนโลยีรู้จำเสียงจะมีแนวโน้มที่ดี แต่โมเดลที่มีอยู่ยังประสบปัญหาในการจัดการกับการสลับภาษาไทย-อังกฤษ และมักเกิดการเรียนรู้ตรงกับข้อมูลฝึกสอนได้ดีมากเกินไป (overfitting) เมื่อทำการปรับแต่งกับชุดข้อมูลที่มีขนาดจำกัด เพื่อแก้ไขข้อจำกัดเหล่านี้ งานวิจัยนี้จึงเสนอโมเดล ASR ที่ได้รับการปรับปรุงด้วยเทคนิค “Mixture of Experts (MoE)” เพื่อเพิ่มความแม่นยำในการถอดเสียง นอกจากนี้ โมเดลรู้จำชื่อเฉพาะ (NER) ยังถูกนำมาใช้เพื่อสกัดคำศัพท์ทางระบบทางเดินอาหาร (GI) จากข้อความถอดเสียง และจัดประเภทคำศัพท์เหล่านี้เพื่ออำนวยความสะดวกในกระบวนการสร้างรายงาน ผลการทดลองแสดงให้เห็นว่าโมเดล ASR ของเรามีอัตราความผิดพลาดของคำ (word error rate) ต่ำ (GI: 1.12%, ภาษาไทย: 2.06%) พร้อมทั้งมีค่า “recall” สูงทั้งสำหรับคำศัพท์ทางการแพทย์ (96.53%) และคำศัพท์ทั่วไป (95.85%) ซึ่งดีกว่าโมเดลมาตรฐานทั้งหมด โมเดล NER ยังให้ผลการทำงานที่โดดเด่นด้วยค่า “F1-score”, “recall” และ “precision” อยู่ที่ 96.11%, 96.06% และ 96.16% ตามลำดับ

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.