Chulalongkorn University Theses and Dissertations (Chula ETD)

การรู้จำเสียงพูดต่อเนื่องภาษาไทยโดยใช้นิวรอลเน็ตเวิร์ก

Other Title (Parallel Title in Other Language of ETD)

Thai continuous speech recognition using neural networks

Year (A.D.)

2007

Document Type

Thesis

First Advisor

บุญเสริม กิจศิริกุล

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2007.1354

Abstract

งานวิจัยชิ้นนี้มีจุดมุ่งหมายเพื่อพัฒนาระบบรู้จำเสียงพูดต่อเนื่องอัตโนมัติภาษาไทย โดยใช้นิวรอลเน็ตเวิร์กรู้จำหน่วยเสียงในกรอบการวิเคราะห์ระดับเฟรม แล้วจึงนำผลการรู้จำนี้ประกอบกับแบบจำลองทางภาษาและกระบวนการค้นหา จนได้ลำดับของคำในภาษาออกมาเป็นผลลัพธ์ จากนั้นทำการวิเคราะห์ประสิทธิภาพของระบบโดยใช้ฐานข้อมูลเสียงพูดชื่อไทย และฐานข้อมูลเกี่ยวกับสัตว์ภาษาไทย โดยทดลองปรับค่าพารามิเตอร์ต่างๆ คือ ชุดหน่วยเสียง อันดับของพีแอลพี และจำนวนเฟรมที่ใช้ แล้วแสดงความถูกต้องของการรู้จำ ทั้งในระดับเฟรม และในระดับคำ ทั้งในชุดข้อมูลสำหรับการเรียนรู้ และในชุดข้อมูลสำหรับการทดสอบ ในชุดข้อมูลสำหรับการทดสอบ ฐานข้อมูลเสียงพูดชื่อไทยมีความถูกต้องสูงสุดระดับเฟรมอยู่ที่ประมาณ 70% และระดับคำอยู่ที่ประมาณ 90% ฐานข้อมูลเสียงพูดเกี่ยวกับสัตว์ภาษาไทยมีความถูกต้องสูงสุดระดับเฟรมอยู่ที่ประมาณ 60% และระดับคำอยู่ที่ประมาณ 40%

Other Abstract (Other language abstract of ETD)

The purpose of this research is to develop an automatic Thai continuous speech recognition system by applying neural networks to frame-based recognition of phonemes. The recognition results are then combined with the language model and the search process to provide the sequence of words as an outcome. The system performance has been analyzed with Thai First Names Speech Corpus and Thai Animal Speech Corpus. The experiments are performed by adjusting the system parameters which are the phoneme set, the PLP order and the number of frames. We present the recognition accuracy at the frame level and the word level, both in the training set and the test set. For the test set of the Thai First Names Speech Corpus, the system achieves about 70% and 90% maximum accuracy in the frame level and the word level respectively, while for that of the Thai Animal Speech Corpus, the system provides about 60% and 40% maximum accuracy in the frame level and the word level respectively.

Share

COinS