Chulalongkorn University Theses and Dissertations (Chula ETD)
การรู้จำเสียงพูดต่อเนื่องภาษาไทยโดยใช้นิวรอลเน็ตเวิร์ก
Other Title (Parallel Title in Other Language of ETD)
Thai continuous speech recognition using neural networks
Year (A.D.)
2007
Document Type
Thesis
First Advisor
บุญเสริม กิจศิริกุล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมคอมพิวเตอร์
DOI
10.58837/CHULA.THE.2007.1354
Abstract
งานวิจัยชิ้นนี้มีจุดมุ่งหมายเพื่อพัฒนาระบบรู้จำเสียงพูดต่อเนื่องอัตโนมัติภาษาไทย โดยใช้นิวรอลเน็ตเวิร์กรู้จำหน่วยเสียงในกรอบการวิเคราะห์ระดับเฟรม แล้วจึงนำผลการรู้จำนี้ประกอบกับแบบจำลองทางภาษาและกระบวนการค้นหา จนได้ลำดับของคำในภาษาออกมาเป็นผลลัพธ์ จากนั้นทำการวิเคราะห์ประสิทธิภาพของระบบโดยใช้ฐานข้อมูลเสียงพูดชื่อไทย และฐานข้อมูลเกี่ยวกับสัตว์ภาษาไทย โดยทดลองปรับค่าพารามิเตอร์ต่างๆ คือ ชุดหน่วยเสียง อันดับของพีแอลพี และจำนวนเฟรมที่ใช้ แล้วแสดงความถูกต้องของการรู้จำ ทั้งในระดับเฟรม และในระดับคำ ทั้งในชุดข้อมูลสำหรับการเรียนรู้ และในชุดข้อมูลสำหรับการทดสอบ ในชุดข้อมูลสำหรับการทดสอบ ฐานข้อมูลเสียงพูดชื่อไทยมีความถูกต้องสูงสุดระดับเฟรมอยู่ที่ประมาณ 70% และระดับคำอยู่ที่ประมาณ 90% ฐานข้อมูลเสียงพูดเกี่ยวกับสัตว์ภาษาไทยมีความถูกต้องสูงสุดระดับเฟรมอยู่ที่ประมาณ 60% และระดับคำอยู่ที่ประมาณ 40%
Other Abstract (Other language abstract of ETD)
The purpose of this research is to develop an automatic Thai continuous speech recognition system by applying neural networks to frame-based recognition of phonemes. The recognition results are then combined with the language model and the search process to provide the sequence of words as an outcome. The system performance has been analyzed with Thai First Names Speech Corpus and Thai Animal Speech Corpus. The experiments are performed by adjusting the system parameters which are the phoneme set, the PLP order and the number of frames. We present the recognition accuracy at the frame level and the word level, both in the training set and the test set. For the test set of the Thai First Names Speech Corpus, the system achieves about 70% and 90% maximum accuracy in the frame level and the word level respectively, while for that of the Thai Animal Speech Corpus, the system provides about 60% and 40% maximum accuracy in the frame level and the word level respectively.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ผุงประเสริฐยิ่ง, ประเสริฐศักดิ์, "การรู้จำเสียงพูดต่อเนื่องภาษาไทยโดยใช้นิวรอลเน็ตเวิร์ก" (2007). Chulalongkorn University Theses and Dissertations (Chula ETD). 66843.
https://digital.car.chula.ac.th/chulaetd/66843