Chulalongkorn University Theses and Dissertations (Chula ETD)

การออกแบบและพัฒนาการสังเคราะห์เสียงพูดภาษาไทยแบบเชื่อมต่อโดยใช้ฐานข้อมูลเสียงพูดขนาดเล็ก

Other Title (Parallel Title in Other Language of ETD)

Design and development of concatenative Thai speech synthesis using a small speech corpus

Year (A.D.)

2008

Document Type

Thesis

First Advisor

อติวงศ์ สุชาโต

Second Advisor

โปรดปราน บุณยพุกกณะ

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2008.1423

Abstract

วิทยานิพนธ์นี้นำเสนอการออกแบบและพัฒนาการสังเคราะห์เสียงพูดภาษาไทยแบบเชื่อมต่อจากฐานข้อมูลเสียงพูดขนาดเล็ก โดยใช้วิธีการคัดเลือกหน่วยเสียง และการออกแบบฐานข้อมูลเสียงพูดอย่างมีประสิทธิภาพ โดยใช้หน่วยเสียงอัฒพยางค์เป็นหน่วยเสียงพื้นฐาน โดยนำพยางค์ และคำที่มีสถิติการปรากฏอยู่ในข้อความภาษาไทยมากที่สุดที่ตรงกับหน่วยเสียงอัฒพยางค์ที่ได้ออกแบบไว้มาสร้างประโยคเพื่อใช้จัดเก็บเสียงพูด ฐานข้อมูลเสียงพูดที่ได้ประกอบด้วยข้อความจำนวน 73 ข้อความ (687 พยางค์ หรือ 1,892 โฟนีม) และมีขนาดของฐานข้อมูลเท่ากับ 4.26 MB ที่อัตราสุ่มตัวอย่าง 8 kHz สำหรับการบันทึกเสียงพูด ในการประเมินผลได้ทำการวัดคุณภาพโดยรวมของเสียงสังเคราะห์ด้วยวิธีเอ็มโอเอส (MOS) ซึ่งได้คะแนนเท่ากับ 3.33 คะแนน และได้นำเสียงสังเคราะห์ที่ได้จากงานวิจัยนี้ไปเปรียบเทียบกับเสียงสังเคราะห์ของวาจา 2 เป็นระบบสังเคราะห์เสียงที่ใช้เทคนิคการสังเคราะห์เสียงแบบอัฒพยางค์ ซึ่งผลการเปรียบเทียบคุณภาพโดยรวมของเสียงสังเคราะห์ด้วยวิธีซีซีอาร์ (CCR) ปรากฏว่าเสียงสังเคราะห์ของงานวิจัยนี้ทำคะแนนได้ดีกว่าอยู่ 0.674 คะแนน

Other Abstract (Other language abstract of ETD)

This thesis presents a design and development of a concatenative speech synthesis from a small Thai speech corpus, using a unit selection technique where the design of the speech corpus is heavily emphasized. Demisyllable units, used as the smallest units of the concatenation, are statistically selected from the most frequently-used syllables and words appearing in Thai articles. Utterance transcriptions for sound recording are designed to efficiently contained these syllables and words. The speech corpus consists of 73 sentences (687 syllables or 1,892 phoneme units) has a 4.26 MB disk size at 8 kHz sampling rate of voice record. A subjective test shows a 3.33 mean opinion score on the synthesized speech quality. The synthetic utterances are also evaluated in comparison with the Vaja2 demisyllable speech synthesis system. Such a subjective direct comparison yields a 0.674 comparison category rating score in favor of the proposed system

Share

COinS