Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

HMM-based Thai singing voice synthesis system

Year (A.D.)

2018

Document Type

Thesis

First Advisor

อติวงศ์ สุชาโต

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2018.1261

Abstract

การร้องเพลงในแต่ละภาษานั้นมีเอกลักษณ์เฉพาะตัวบางอย่างซึ่งส่งผลให้การพัฒนาความเป็นธรรมชาติของเสียงร้องเพลงสังเคราะห์ในแต่ละภาษานั้นมีความท้าทายแตกต่างกัน เสียงวรรณยุกต์เป็นส่วนที่มีผลมากกับการสื่อสารในภาษาที่มีเสียงวรรณยุกต์ แต่ระบบสังเคราะห์เสียงร้องเพลงในปัจจุบันไม่ได้คำนึงถึงเสียงวรรณยุกต์ นอกจากนี้เมลิสมาเป็นอีกสถานการณ์หนึ่งที่พบได้บ่อยครั้งในการร้องเพลงป็อปไทยซึ่งต้องมีการจัดการเพื่อจำลองการร้องเมลิสมา เป้าหมายของวิทยานิพนธ์นี้จึงมุ่งเน้นที่การปรับระบบสังเคราะห์เสียงร้องเพลงให้รองรับการจำลองเสียงในสถานการณ์เมลิสมาและผลกระทบของเสียงวรรณยุกต์ งานวิทยานิพนธ์นี้เสนอ 1) ปัจจัยบริบทที่ใช้ในระบบสังเคราะห์เสียงร้องเพลงสำหรับภาษาที่วรรณยุกต์มีผลต่อเสียงร้องเพลงและคำนึงถึงเมลิสมา 2) วิธีการทำสำเนารูปเขียน จากการประเมินผลพบว่า วิธีการทำสำเนารูปเขียนที่เสนอทั้งสองแบบนั้นส่งผลให้ระบบสังเคราะห์เสียงร้องเพลงรองรับเมลิสมา โดยวิธีการทำสำเนารูปเขียนที่คำนึงถึงสระเสียงสั้น-ยาวและตัวสะกดนั้นมีรูปคลื่นของเสียงร้องเพลงสังเคราะห์ใกล้เคียงกับรูปคลื่นของเสียงร้องเพลงจริงมากกว่า รวมถึงมีความเป็นธรรมชาติมากกว่าโดยใช้มาตรวัดเอ็มโอเอส อีกทั้งเมื่อมีปัจจัยบริบทที่เกี่ยวข้องกับเสียงวรรณยุกต์ เค้ารูปของความถี่มูลฐานที่สังเคราะห์ได้นั้นมีความใกล้เคียงเสียงร้องเพลงจริงมากกว่าในระบบที่ไม่มีปัจจัยบริบทที่เกี่ยวข้องกับเสียงวรรณยุกต์ และมีความเป็นธรรมชาติมากขึ้นโดยใช้มาตรวัดเอ็มโอเอส นอกจากนี้เพื่อเพิ่มความเป็นธรรมชาติให้เสียงร้องเพลงสังเคราะห์จึงมีการทดลองเกี่ยวกับจำนวนสถานะของแบบจำลองเสียงพบว่า เมื่อจำนวนสถานะเพิ่มขึ้น ความเป็นธรรมชาติของเสียงร้องเพลงสังเคราะห์ก็มากขึ้น แต่เมื่อถึงจุดหนึ่งเสียงร้องเพลงสังเคราะห์ที่ได้จะมีความเป็นธรรมชาติลดลง

Other Abstract (Other language abstract of ETD)

Singing synthesis in each language has its unique characteristics and challenges aiming to improve its naturalness. The effort regarding naturalness becomes more complicated for tonal languages. One of the reasons is due to the fact that the same word uttered in different tone yields different meaning. Nonetheless, no known research has attempted to include tone consideration into their singing synthesis models. Another challenge the tonal language singing synthesis faces is melisma for the same reason. Therefore, this research offers a tonal-melisma-compatible singing voice synthesis system. To do so, we propose 1) a contextual factors design which includes tone and melisma contexts, and 2) phoneme duplication methods. The results showed that the proposed phoneme duplication methods made the system compatible with melisma, where short vowels and final consonants constructed a favorable waveform closer to real singing voice and have a higher naturalness in MOS evaluation. Furthermore, a system with a tone context outperformed the baseline due to similarity of the generated F0 contour. Finally, in order to improve naturalness in the synthesized singing voice, an experiment with HMM state numbers was conducted. The outcome demonstrated that the naturalness increased as the state numbers grew to a certain point.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.