Chulalongkorn University Theses and Dissertations (Chula ETD)
การแปลงกราฟีมภาษาอังกฤษเป็นโฟนีมภาษาไทย
Other Title (Parallel Title in Other Language of ETD)
English grapheme to Thai phoneme conversion
Year (A.D.)
2012
Document Type
Thesis
First Advisor
อติวงศ์ สุชาโต
Second Advisor
โปรดปราน บุณยพุกกณะ
Third Advisor
ชัย วุฒิวิวัฒน์ชัย
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมคอมพิวเตอร์
DOI
10.58837/CHULA.THE.2012.1261
Abstract
ความเป็นธรรมชาติของเสียงสังเคราะห์เป็นเป้าหมายสำคัญของระบบสังเคราะห์เสียง (Text-to-speech system) ซึ่งกระบวนการสำคัญก็คือการหาคำอ่านของคำที่จะสังเคราะห์เสียง แต่ในระบบสังเคราะห์เสียงภาษาไทยการหาคำอ่านของคำภาษาอังกฤษไม่สามารถหาได้แบบตรงไปตรงมา ดังนั้นเพื่อให้ระบบสังเคราะห์เสียงภาษาไทยสามารถสังเคราะห์เสียงคำภาษาอังกฤษ ที่อาจจะปรากฏร่วมกับคำภาษาไทยได้นั้น จึงเสนอระบบการหาคำอ่านในหน่วยเสียงภาษาไทยจากคำภาษาอังกฤษ ซึ่งประกอบไปด้วย 3 กระบวนการหลัก คือ โมเดลการทำนายหน่วยเสียง กระบวนการประมวลผลหลังจากการทำนายหน่วยเสียง และโมเดลการทำนายเสียงวรรณยุกต์ โดยโมเดลการทำนายหน่วยเสียงใช้อัลกอริทึม ออนไลน์ดิสคริมิเนทีฟเทรนนิงเฟรมเวิร์ค (Online discriminative training framework) ในกระบวนการเรียนรู้ร่วมกับค่าลักษณะสำคัญต่างๆ ดังนี้ บริบท (Context) เอ็นแกรม (ngram) มาร์คอฟออร์เดอร์ (Markov order) ลิเนียร์เชน (Linear-chain) และจอยต์เอ็นแกรม (Joint n-gram) ในขณะที่กระบวนการประมวลผลหลังจากการทำนายหน่วยเสียง จะทำการแก้ไขหน่วยเสียงที่ผิดหลักพยางค์ในภาษาไทย และโมเดลการทำนายเสียงวรรณยุกต์อัลกอริทึมต้นไม้ (Classification and regression tree: CART) ในกระบวนการเรียนรู้ ร่วมกับค่าลักษณะสำคัญต่างๆ ที่เกี่ยวข้องกับหลักภาษาศาสตร์ ผลลัพธ์ความแม่นยำเฉลี่ย ในระดับพยางค์เท่ากับ 76.03%, ความแม่นยำเฉลี่ยในระดับคำเท่ากับ 53.93% และผลลัพธ์ในแง่ความพึงพอใจพบว่า 90.95% เป็นผลลัพธ์ที่ยอมรับได้
Other Abstract (Other language abstract of ETD)
The naturalness of synthesized sound is considered as a primary goal in textto-speech (TTS) system. The important process, which makes the system reach the purpose, is grapheme-to-phoneme (G2P) conversion. However, in Thai TTS system, transcribing English texts to Thai phones is not a trivial task. This study, therefore, proposes the method of finding Thai transcriptions of English words in order to deal with English words existing among Thai words in modern written language. The system consists of three main components: phone prediction model, postprocessing, and tone prediction model. Phone prediction model is constructed by applying the online discriminative training framework as its learning algorithm. The features used in phone prediction model are context, n-gram, markov order, linearchain and joint n-gram. Post-processing is created for correcting some phone errors which break Thai syllable structure rules. Tone prediction model is built by using classification and regression tree (CART) algorithm with linguistic features. Results show that the average syllable and word accuracy are 76.03% and 53.93% respectively. Moreover, the result of subjective test indicates that 90.95% is acceptable.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
พิทักษ์ภวัตกุล, กฤตนันท์, "การแปลงกราฟีมภาษาอังกฤษเป็นโฟนีมภาษาไทย" (2012). Chulalongkorn University Theses and Dissertations (Chula ETD). 69099.
https://digital.car.chula.ac.th/chulaetd/69099