Chulalongkorn University Theses and Dissertations (Chula ETD)
การรู้จำเสียงพูดตัวเลขไทยโดยไม่ขึ้นต่อผู้พูด โดยการใช้ไดนามิกไทม์วาร์ปปิง
Other Title (Parallel Title in Other Language of ETD)
Speaker-independent Thai numerical voice recognition by using dynamic time warping
Year (A.D.)
1995
Document Type
Thesis
First Advisor
สมชาย จิตะพันธ์กุล
Faculty/College
Graduate School (บัณฑิตวิทยาลัย)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมไฟฟ้า
DOI
10.58837/CHULA.THE.1995.834
Abstract
วิทยานิพนธ์ฉบับนี้มีจุดมุ่งหมายเพื่อศึกษาการรู้จำตัวเลขไทยแบบไม่ขึ้นต่อผู้พูดโดยใช้ไดนามิกไทม์วาร์ปปิง การวิเคราะห์ข้อมูลเสียงเพื่อหารูปแบบจะใช้เป็นคำเดี่ยว โดยการใช้ดีสครีตทรานสีฟอร์มของเสียงในแต่ละเฟรม จากนั้นทำ หาพารามิเตอร์ของรูปแบบของคำนั้น ๆ จากนั้นทำการคำนวณหา distance ระหว่างแบบทดสอบ (test pattern) กับแบบอ้างอิง (reference pattern) ผลการศึกษาด้วยวิธีการที่นำเสนอนี้ โดยทำการทดสอบบนเครื่อง IBM PC/AT compatible โดยอัตราการรู้จำของเสียงตัวเลขไทย 0 - 9 โดยไม่ขึ้นต่อผู้พูดจะมีค่าเป็น 79.25 % และอัตราความถูกต้องภายในกลุ่มที่ใช้สร้างแบบอ้างอิงจำนวน 20 คน จำนวน 600 คำ จะได้ 87.17 % และอัตราการรู้จำของเสียงตัวเลขไทย 0 - 9, “สิบ", “เอ็ด", “ยี่", “ร้อย", “พัน", “หมื่น", “แสน", และ “ล้าน" โดยไม่ขึ้นต่อผู้พูดภายในกลุ่มที่สร้างแบบอ้างอิงจำนวน 20 คน จำนวน 1080 คำ จะ ได้ 74.07 % ผลการรู้จำเสียงพูดที่ดีจะขึ้นกับการเลือกใช้พารามิเตอร์ในการแทนเสียงพูด และจะเห็นได้ว่าการนำเอาไดนามิกไทม์วาร์ปปิงมาใช้ร่วมกับเทคนิคนี้นั้นเหมาะกับการรู้จำเสียงที่ไม่มากแบบ
Other Abstract (Other language abstract of ETD)
This thesis has the objective to study on speaker-independent Thai numerical voice recognition by using dynamic time warping. In analysis to find a pattern uses isolated word by discrete Hartley transform in each frame of voice. Then, to find parameters of pattern of each word, after that to calculate distance between a test pattern and a reference pattern. This proposed method results the zero to nine independent voice recognition rate 79.25 % with 20 testing persons, 87.17 % with 20 training persons with 600 words and zero to nine, “sib", “ed", “yee", “roy", “pan", “hmuan", “san", “Ian" independent voice recognition rate 74.07 % with 20 training persons with 1080 word, by testing on IBM PC/AT compatible. Good voice recognition result is depended on voice parameter selection and shows that using DTW for this technique is appropriate for no many voice recognized patterns.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
เพ็ญศิริ, ระพีพัฒน์, "การรู้จำเสียงพูดตัวเลขไทยโดยไม่ขึ้นต่อผู้พูด โดยการใช้ไดนามิกไทม์วาร์ปปิง" (1995). Chulalongkorn University Theses and Dissertations (Chula ETD). 29094.
https://digital.car.chula.ac.th/chulaetd/29094