Chulalongkorn University Theses and Dissertations (Chula ETD)

การรู้จำเสียงพูดไทยโดยตรงจากการเข้ารหัส G.729

Other Title (Parallel Title in Other Language of ETD)

Direct recognition of Thai speech from G.729 code

Year (A.D.)

2000

Document Type

Thesis

First Advisor

สุวิทย์ นาคพีระยุทธ

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมไฟฟ้า

DOI

10.58837/CHULA.THE.2000.1126

Abstract

มาตรฐาน ITU-T G.729 เป็นมาตรฐานในการบีบอัดเสียงพูดซึ่งสามารถนำใช้งานได้อย่างกว้างขวาง ดังนั้นถ้าเราสามารถดึงจุดเด่นของเสียงที่จำเป็นในการรู้จำออกมาได้โดยตรงจากรหัสเสียงที่ถูกบีบอัดแล้ว จะสามารถสร้างระบบรู้จำเสียงอย่างง่ายจากรหัสเสียง G.729 โดยตรง พลังงานเสียง คาบการสั่นของเสียง และ LSP (Line Spectral Pair) เป็นพารามิเตอร์ที่ส่งมาลับรหัส G.729 และสามารถใช้ในการรู้จำเสียงได้ วิทยานิพนธ์นี้นำวิธีการของแบบจำลองฮิดเดน มาร์คอฟ และการควอนไทซ์แบบเวกเตอร์ มาใช้ในการรู้จำเสียงภาษาไทยแบบไม่ขึ้นกับผู้พูด คำศัพท์ทั้งหมด 30 คำแบ่งเป็น 2 ชุดได้แก่ ชุดคำศัพท์ตัวเลข 0 ถึง 9 และชุดคำศัพท์พยางค์เดียว 20 คำ เสียงพูดที่นำมาเป็นต้นแบบและเป็นเสียงพูดทดสอบประกอบด้วยทั้งเพศชายและหญิงที่มีช่วงอายุ ระหว่าง 18 ปี ถึง 25ปี ผลการทดสอบอัตราการรู้จำแบบไม่ขึ้นลับผู้พูดของชุดเลียงพูดเพื่อทดสอบมีอัตรารู้จำเฉลี่ยร้อยละ 90.75 โดยมีอัตราการรู้จำเฉพาะชุดคำศัพท์พยางค์เดียวร้อยละ 88.50 อัตราการรู้จำเฉพาะชุดตัวเลขร้อยละ 93.00 ตามลำดับ

Other Abstract (Other language abstract of ETD)

The ITU-T Recommendation G.729 is a versatile and well accepted speech compression standard. If the speech feature can be extracted directly from the code easily, a simple speech recognition system can work directly on the G.729 codes. Energy, pitch period and LSP are the parameters obtained from G.729 codes which can be used in speech recognition. This thesis uses Hidden Markov Model (HMM) and Vector Quantization to recognize speaker independent Thai speech. The 30-word vocabulary is subdivided into two sets comprising 20 single syllable, and 10 tha. numeric words, zero to nine. The separated speech training set and testing set are composed of both male and female speakers within the range of 18 to 25 years of age. The average recognition rate of this speaker-independent recognition system is 90.75 %. The recognition rate of the single-syllabled words is 88.50 %.The recognition rate of the numeric words is 93.00%.

Share

COinS