Chulalongkorn University Theses and Dissertations (Chula ETD)

ระบบรู้จำทำนองเสียงพูดสำหรับเสียงพูดภาษาไทยโดยใช้โครงข่ายประสาทเทียม

Other Title (Parallel Title in Other Language of ETD)

Thai speech intonation recognition using artificial neural network

Year (A.D.)

2003

Document Type

Thesis

First Advisor

สมชาย จิตะพันธ์กุล

Second Advisor

เสถียร เตรียมล้ำเลิศ

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมไฟฟ้า

DOI

10.58837/CHULA.THE.2003.1312

Abstract

ทำนองเสียงพูดภาษาไทยอาจจัดได้ว่าเป็นสารสนเทศกึ่งภาษาศาสตร์ ที่เกิดขึ้นจากรูปลักษณ์ความถี่มูลฐานของประโยคเสียงพูด วิทยานิพนธ์นี้นำเสนอวิธีการในการรู้จำรูปแบบของทำนองเสียงพูดภาษาไทย โดยนำเสนอคอนทัวร์สำคัญสองลักษณะ ซึ่งหาได้จากลักษณะของความถี่มูลฐาน จากนั้นจึงนำคอนทัวร์ลักษณะทั้งสองประเภทนี้ไปแปลงเป็นเวกเตอร์ลักษณะ เพื่อนำไปใช้เป็นข้อมูลป้อนเข้าโครงข่ายประสาทเทียม ในแต่ละการทดลองจะฝึกฝน และทดสอบเสียงพูดของผู้ชาย และเสียงพูดของผู้หญิงแยกจากกัน การทดลองแรกจะจำแนกทำนองเสียงออกเป็น 3 ประเภท คือ ทำนองเสียงตก ทำนองเสียงขึ้น และทำนองเสียงผสม อัตราการรู้จำทำนองเสียงพูดมีค่า 61.6% สำหรับเสียงผู้ชาย และ 73.7% สำหรับเสียงผู้หญิง เมื่อพิจารณาความผิดพลาดของการรู้จำเสียงพูด ของแต่ละทำนองเสียงจากตารางความสับสนพบว่า ระบบรู้จำมีความสับสนระหว่างทำนองเสียงขึ้น และทำนองเสียงผสมสูง จึงได้ทำการทดลองที่สอง โดยจัดให้ทำนองเสียงผสมเป็นประเภทเดียวกับทำนองเสียงขึ้น ผลการทดลองพบว่าอัตราการรู้จำมีค่าเป็น 81.7% สำหรับเสียงผู้ชาย และ 90.8% สำหรับเสียงผู้หญิง

Other Abstract (Other language abstract of ETD)

Thai intonation can be categorized as paralinguistic information of F contour of the utterance. This thesis presents a method of intonation pattern recognition of Thai utterance. Two intonation feature contours, extracted from F contour, are proposed. The feature contours are converted to feature vector to be used as input of neural network recognizers. For each experiment, utterances from male and female speakers are trained and tested separately. In the first experiment, the utterances are devided into three classes of intonation pattern, the fall class, the rise class and the convolution class. The recognition rate of this experiment is 61.6% for male speakers and 73.7% for female speakers. The confusion matrices show that there is a lot of confusion between the rise class and the convolution class. So the second experiment is constructed, the number of classes of intonation is reduced to two classes. The utterances of the convolution class are re-labeled as the rise class. In the second experiment, the recognition rates are improved. The recognition rate is 81.7% for male speakers and 90.8% for female speakers.

Share

COinS