Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
An Improvement of Acoustic Model for Enhancing Naturalness in the Synthesized Thai Speech
Year (A.D.)
2017
Document Type
Thesis
First Advisor
อติวงศ์ สุชาโต
Second Advisor
โปรดปราน บุณยพุกกณะ
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิศวกรรมศาสตรดุษฎีบัณฑิต
Degree Level
ปริญญาเอก
Degree Discipline
วิศวกรรมคอมพิวเตอร์
DOI
10.58837/CHULA.THE.2017.1378
Abstract
เสียงสังเคราะห์เป็นเทคโนโลยีทางเลือกสำหรับการรับรู้ข้อมูลประเภทข้อความ ความชัดเจน และความเป็นธรรมชาติของเสียงสังเคราะห์ส่งผลโดยตรงกับความเข้าใจของผู้ฟังที่มีต่อข้อมูลในสัญญาณเสียง ดังนั้นในงานวิจัยนี้จึงได้พัฒนาด้านความเป็นธรรมชาติ และความชัดเจนของเสียงสังเคราะห์ที่สร้างมาจากค่าพารามิเตอร์ของตัวเข้ารหัสเสียง STRAIGHT ซึ่งค่าพารามิเตอร์เหล่านั้นถูกสร้างขึ้นมาจากแบบจำลองฮิดเดนมาร์คอฟ และแบบจำลองโครงข่ายประสาทเทียมแบบลึก โดยการนำเสนอแนวคิด 3 แนวคิด ได้แก่ 1) แนวคิดการแยกกันของแบบจำลองคุณลักษณะความถี่มูลฐาน และค่าคุณลักษณะสเปกตรัม โดยทั้งสองแบบจำลองถูกฝึกฝนแยกกันเพื่อสร้างเป็นแบบจำลองฮิดเดนมาร์คอฟสำหรับสร้างค่าพารามิเตอร์ของตัวเข้ารหัสเสียง STRAIGHT ที่สอดคล้องกับแบบจำลองดังกล่าว ในวิทยานิพนธ์นี้ได้นำเสนอขั้นตอนวิธีในการปรับแนวเวลาของค่าพารามิเตอร์ที่สร้างขึ้นมาจากการใช้สองแบบจำลอง 2) เสนอการปรับเปลี่ยนค่าคุณลักษณะส่วนรับเข้าของโครงข่ายประสาทเทียมแบบลึกที่ถูกใช้ในการสร้างค่าพารามิเตอร์ของตัวเข้ารหัสเสียง STRAIGHT จากเดิมที่ใช้ค่าคุณลักษณะทางบริบท เป็นแบบจำลองฮิดเดนมาร์คอฟที่เป็นผลลัพธ์จากต้นไม้ตัดสินใจที่ใช้ในการจัดกลุ่มบริบท 3) นำเสนอวิธีการนอร์มัลไลเซชันค่าคุณลักษณะส่วนส่งออกของแบบจำลองโครงข่ายประสาทเทียมแบบลึก ที่ใช้ค่ากลาง และค่าความแปรปรวนจากแบบจำลองฮิดเดนมาร์คอฟที่เป็นผลลัพธ์จากต้นไม้ตัดสินใจ ในการทดสอบได้ทำการทดสอบ 2 รูปแบบ คือ 1) การทดสอบปรนัยที่ใช้ตัวชี้วัดค่าความเพี้ยนของเซปตรัลในระดับเมลของค่าสัมประสิทธิ์เมลเคปสตรัม (MGC_MCD) ค่าความเพี้ยนของเซปตรัลในระดับเมลของค่าแถบคลื่นความถี่ของความไม่เป็นคาบ (BAP_MCD) ความไม่สอดคล้องกันของสถานะความก้องของเสียง (LF0_UVU) และความผิดพลาดกำลังสองเฉลี่ยของค่าความถี่มูลฐาน (LF0_RMSE) 2) การทดสอบอัตนัยที่ใช้ผู้ทดสอบ 9 คน โดยวัดในด้านของความชัดเจน และความเป็นธรรมชาติของเสียงสังเคราะห์ ผลการทดสอบปรนัยการใช้แนวคิดที่ 2 และ 3 กับแบบจำลองโครงข่ายประสาทเทียมแบบลึก สามารถสังเคราะห์ค่าพารามิเตอร์ของตัวเข้ารหัสเสียง STRAIGHT ได้ใกล้เคียงกับเสียงต้นฉบับมากกว่าการใช้แนวคิดที่ 1 กับแบบจำลองฮิดเดนมาร์คอฟ และแบบจำลองดั้งเดิมทั้งในส่วนของแบบจำลองฮิดเดนมาร์คอฟ และแบบจำลองโครงข่ายประสาทเทียมแบบลึก สำหรับในการทดสอบอัตนัยพบว่าการใช้แนวคิดที่ 1 กับแบบจำลองฮิดเดนมาร์คอฟสามารถสังเคราะห์ค่าคุณลักษณะที่มีความเป็นธรรมชาติ และชัดเจนมากกว่าการใช้แนวคิดอื่น และแบบจำลองดั้งเดิมทั้งสองแบบจำลอง
Other Abstract (Other language abstract of ETD)
Speech synthesis converts text to speech signals. The naturalness and intelligibility of synthesized speech affect the listeners understanding of the content conveyed by the speech signal. This dissertation proposed 3 aspects of improving the naturalness and intelligibility of synthesized speech generating from STRAIGHT parameters. The first aspect was the separation of spectral-feature models and the fundamental-frequency models. The two types of models were trained independently to obtain the Hidden Markov Model (HMM) parameters, optimized for generating their respective STRAIGHT parameters. Algorithms handling the time-alignment of parameters, generating separately from the two models were proposed. In this work, we focused on generating STRAIGHT parameters from either HMMs or Deep Neural Networks (DNNs). The second aspect was concerned with the modification of typical inputs to DNNs used for generating STRAIGHT parameters from direct phonetic contexts, to HMMs resulting from context clustering decision trees. The third aspect was the DNN output normalization using means and variances from HMMs, which were the results of the decision trees. Tools for objective evaluations were Mel cepstral distortion for Mel cepstral coefficient of spectral filter (MGC_MCD), Mel cepstral distortion for coefficient of band aperiodicity filter (BAP_MCD), root mean square error of fundamental frequency (LF0_RMSE), and count of unmatched voicing condition between natural speech and synthesized speech (LF0_UVU). Nine participants were recruited to perform a subjective evaluation in which they were asked to evaluate the synthesized speech utterances in terms of their naturalness and intelligibility. The results of the objective test showed that applying the second and the third proposed aspects to DNN generated STRAIGHT parameters resulted in better synthesized speech than applying the first aspect to HMM models as well as using baseline HMM and DNN methods. The subjective results showed that the application of the first aspect to HMM outperformed other methods.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ฉันจรัสวิชัย, ศุภเดช, "การปรับปรุงแบบจำลองเสียงเพื่อเพิ่มความเป็นธรรมชาติของเสียงสังเคราะห์ภาษาไทย" (2017). Chulalongkorn University Theses and Dissertations (Chula ETD). 1868.
https://digital.car.chula.ac.th/chulaetd/1868