Chulalongkorn University Theses and Dissertations (Chula ETD)
การออกแบบและพัฒนาการสังเคราะห์เสียงพูดภาษาไทยแบบเชื่อมต่อโดยใช้ฐานข้อมูลเสียงพูดขนาดเล็ก
Other Title (Parallel Title in Other Language of ETD)
Design and development of concatenative Thai speech synthesis using a small speech corpus
Year (A.D.)
2008
Document Type
Thesis
First Advisor
อติวงศ์ สุชาโต
Second Advisor
โปรดปราน บุณยพุกกณะ
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมคอมพิวเตอร์
DOI
10.58837/CHULA.THE.2008.1423
Abstract
วิทยานิพนธ์นี้นำเสนอการออกแบบและพัฒนาการสังเคราะห์เสียงพูดภาษาไทยแบบเชื่อมต่อจากฐานข้อมูลเสียงพูดขนาดเล็ก โดยใช้วิธีการคัดเลือกหน่วยเสียง และการออกแบบฐานข้อมูลเสียงพูดอย่างมีประสิทธิภาพ โดยใช้หน่วยเสียงอัฒพยางค์เป็นหน่วยเสียงพื้นฐาน โดยนำพยางค์ และคำที่มีสถิติการปรากฏอยู่ในข้อความภาษาไทยมากที่สุดที่ตรงกับหน่วยเสียงอัฒพยางค์ที่ได้ออกแบบไว้มาสร้างประโยคเพื่อใช้จัดเก็บเสียงพูด ฐานข้อมูลเสียงพูดที่ได้ประกอบด้วยข้อความจำนวน 73 ข้อความ (687 พยางค์ หรือ 1,892 โฟนีม) และมีขนาดของฐานข้อมูลเท่ากับ 4.26 MB ที่อัตราสุ่มตัวอย่าง 8 kHz สำหรับการบันทึกเสียงพูด ในการประเมินผลได้ทำการวัดคุณภาพโดยรวมของเสียงสังเคราะห์ด้วยวิธีเอ็มโอเอส (MOS) ซึ่งได้คะแนนเท่ากับ 3.33 คะแนน และได้นำเสียงสังเคราะห์ที่ได้จากงานวิจัยนี้ไปเปรียบเทียบกับเสียงสังเคราะห์ของวาจา 2 เป็นระบบสังเคราะห์เสียงที่ใช้เทคนิคการสังเคราะห์เสียงแบบอัฒพยางค์ ซึ่งผลการเปรียบเทียบคุณภาพโดยรวมของเสียงสังเคราะห์ด้วยวิธีซีซีอาร์ (CCR) ปรากฏว่าเสียงสังเคราะห์ของงานวิจัยนี้ทำคะแนนได้ดีกว่าอยู่ 0.674 คะแนน
Other Abstract (Other language abstract of ETD)
This thesis presents a design and development of a concatenative speech synthesis from a small Thai speech corpus, using a unit selection technique where the design of the speech corpus is heavily emphasized. Demisyllable units, used as the smallest units of the concatenation, are statistically selected from the most frequently-used syllables and words appearing in Thai articles. Utterance transcriptions for sound recording are designed to efficiently contained these syllables and words. The speech corpus consists of 73 sentences (687 syllables or 1,892 phoneme units) has a 4.26 MB disk size at 8 kHz sampling rate of voice record. A subjective test shows a 3.33 mean opinion score on the synthesized speech quality. The synthetic utterances are also evaluated in comparison with the Vaja2 demisyllable speech synthesis system. Such a subjective direct comparison yields a 0.674 comparison category rating score in favor of the proposed system
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
สุนทรพันธุ์, ต่อศักดิ์, "การออกแบบและพัฒนาการสังเคราะห์เสียงพูดภาษาไทยแบบเชื่อมต่อโดยใช้ฐานข้อมูลเสียงพูดขนาดเล็ก" (2008). Chulalongkorn University Theses and Dissertations (Chula ETD). 67276.
https://digital.car.chula.ac.th/chulaetd/67276