Chulalongkorn University Theses and Dissertations (Chula ETD)

การสังเคราะห์พยางค์ภาษาไทยด้วยวิธีการสังเคราะห์แบบวิเคราะห์โดยใช้คู่เส้นสเปกตรัม

Other Title (Parallel Title in Other Language of ETD)

Synthesis by analysis of Thai syllables based on line spectrum pairs

Year (A.D.)

1999

Document Type

Thesis

First Advisor

เอกชัย ลีลารัศมี

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมไฟฟ้า

DOI

10.58837/CHULA.THE.1999.831

Abstract

คู่เส้นสเปกตรัม (Line Spectrum Pair: LSP) เป็นรูปแบบหนึ่งของสัมประสิทธิ์การเข้ารหัสการทำนายแบบเชิงเส้น (Linear Predictive Coding coefficients: LPC coefficients) ที่มีคุณสมบัติในการเข้ารหัสฟอร์แมนต์ของสัญญาณเสียงพูดและมีคุณสมบัติในการประมาณค่าพารามิเตอร์อย่างมีเสถียรภาพ วิทยานิพนธ์นี้นำเสนอหน่วยเสียงและวิธีการสังเคราะห์เสียงพยางค์ภาษาไทยโดยใช้คุณสมบัติของคู่เส้นสเปกตรัมในการเข้ารหัสหน่วยเสียงและสังเคราะห์ฟอร์แมนต์ในบริเวณช่วงการเปลี่ยนแปลงของฟอร์แมนต์โดยวิธีการประมาณค่าแบบเชิงเส้น หน่วยเสียงเหล่านี้เก็บจุดอ้างอิงของฟอร์แมนต์ที่เป็นลักษณะเฉพาะของเสียงแต่ละเสียงในภาษาไทย นอกจากนี้ในการสังเคราะห์จะใช้ข้อมูลที่ได้จากการวิเคราะห์จากสัญญาณเสียงพูด อันได้แก่รูปแบบความถี่มูลฐานเพื่อใช้ในการสังเคราะห์เสียงวรรณยุกต์ กรอบแอมพลิจูดเพื่อใช้ควบคุมกรอบแอมพลิจูดของเสียงสังเคราะห์ และระยะเวลาเพื่อควบคุมระยะเวลาในการสังเคราะห์หน่วยเสียงแต่ละหน่วยเสียงของพยางค์แต่ละพยางค์ ในการสังเคราะห์เสียงวิทยานิพนธ์นี้นำเสนอกระบวนการสังเคราะห์โดยใช้หน่วยเสียงจากโครงสร้างพยางค์ที่มีลักษณะพิเศษ หน่วยเสียงเหล่านี้แบ่งประเภทตามลักษณะและหน้าที่ของเสียง จากนั้นนำหน่วยเสียงเปล่านี้ผ่านกระบวนการประมาณค่าเชิงเส้นบนคู่เส้นสเปกตรัมเพื่อสังเคราะห์เสียงพูด การสังเคราะห์เสียงวรรณยุกต์ใช้วิธีทีดี-โซลา (Time-Domain Pitch-Synchronous Overlap Add : TD-PSOLA) โดยกระบวนการที่นำเสนอนี้สามารถใช้สังเคราะห์พยางค์ในภาษาไทยได้ทุกพยางค์ การประเมินคุณภาพเสียงที่สังเคราะห์ตามวิธีในวิทยานิพนธ์นี้ทำโดยอาสาสมัครจำนวน 10 คน ผลการประเมินคุณภาพเสียงที่สังเคราะห์คือ ค่าเอ็มอาร์ที (Modified Rhyme Test : MRT) เท่ากับ 78 เปอร์เซ็นต์ และค่าเอ็มโอเอส (Most Opinion Score : MOS) เท่ากับ 3.98

Other Abstract (Other language abstract of ETD)

Line spectrum pair (LSP) is one representation of linear predictive coding coefficients (LPC coefficients) which is used in formant coding of speech signal. It provides the stability on the interpolated parameters. This thesis proposes a Thai syllabic speech synthesizing method and its phonemes. This method uses the property of the line spectrum pair to encode phonemes and to generate formant transition between phonemes using linear interpolation. These units contain formant locus of Thai phonemes. In the synthesis method, the data are analyzed from speech signal and are used as a synthesizing database. These data consist of fundamental frequency patterns which are used in regenerating tone; amplitude envelopes which are used in controlling the amplitude envelope of synthesized speech; and time duration which is used in controlling the duration of the synthesized phoneme in each synthesized syllable. To synthesize Thai syllables, the thesis proposes a method of synthesizing speech from units of different syllabic structures. The units are classified into different types of segments by their functions and sounds, then the linear interpolation of line spectrum pairs is operated to generate speech from these units. To regenerate tone, the TD-PSOLA method is selected to implement this work. By this synthesis method, all Thai syllables can be synthesized. The speech quality of this synthesis method was assessed by 10 volunteers. The results of speech quality assessments have MRT scores of 78% and MOS of 3.98

Share

COinS