Chulalongkorn University Theses and Dissertations (Chula ETD)

การคัดเลือกและสกัดคุณลักษณะเพื่อการจำแนกอารมณ์จากเสียงพูดภาษาไทย

Other Title (Parallel Title in Other Language of ETD)

Feature Selection and Extraction for Thai Emotional Speech Classification

Year (A.D.)

2016

Document Type

Thesis

First Advisor

อติวงศ์ สุชาโต

Second Advisor

โปรดปราน บุณยพุกกณะ

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2016.816

Abstract

มนุษย์ใช้เสียงพูดในการถ่ายทอดเรื่องราวตลอดจนอารมณ์ความรู้สึก โดยไม่เพียงใช้สื่อสารระหว่างมนุษย์ด้วยกันเท่านั้น แต่เสียงยังสามารถใช้ในการสื่อสารระหว่างมนุษย์และคอมพิวเตอร์ได้อีกด้วย ซึ่งหากคอมพิวเตอร์เข้าใจอารมณ์ที่มนุษย์ต้องการสื่อย่อมทำให้สามารถตอบสนองมนุษย์ได้อย่างมีประสิทธิภาพมากยิ่งขึ้น การทำให้คอมพิวเตอร์สามารถรู้จำอารมณ์จากเสียงได้อย่างมีประสิทธิภาพจึงนับเป็นสิ่งสำคัญ วิทยานิพนธ์นี้จึงเสนอขั้นตอนวิธีในการรู้จำอารมณ์จากเสียงพูดบนคลังข้อมูลอารมณ์จากละครไทย ด้วยการใช้คุณลักษณะที่สกัดจากระดับเซกเมนต์มาคำนวณค่าทางสถิติและลดจำนวนคุณลักษณะด้วยการวิเคราะห์องค์ประกอบหลักโดยใช้เคอร์เนล แล้วจำแนกด้วยซัพพอร์ตเวกเตอร์แมชชีน จากการทดลองพบว่าขั้นตอนวิธีที่เสนอให้ค่า F-measure สูงกว่าชุดข้อมูลอ้างอิงพื้นฐาน 1 และ 2 ซึ่งใช้คุณลักษณะที่สกัดจากระดับถ้อยความที่ร้อยละ 16.12 และร้อยละ 13.16 ตามลำดับ และให้ค่าความระลึกเฉลี่ยแบบให้น้ำหนักคลาสเท่ากัน (ค่าความแม่นยำแบบไม่ถ่วงน้ำหนัก) สูงกว่าชุดข้อมูลอ้างอิงพื้นฐาน 1 และ 2 ที่ร้อยละ 21.65 และร้อยละ 18.82 ตามลำดับ

Other Abstract (Other language abstract of ETD)

Humans express their stories and emotions through speech. It is used not only in human-to-human communication but also in communication between humans and computers. If computers understand the emotions that humans mean to convey, they should be able to interact to humans more effectively. So, it is important to make the computers effectively recognize emotions. This thesis proposes an algorithm for speech emotion recognition on EMOLA corpus. By using features extracted from the segment level, it then performed statistical calculation and reduced the number of features using Kernel Principal Component Analysis. After the classification task using support vector machine, the experiment shows that the proposed algorithm yields F-measure higher than the reference baseline data set 1 and 2, using features from utterance level of 16.12% and 13.16%, respectively. It gives macro-averaged recall (unweighted accuracy) higher than both baseline data sets at 21.65% and 18.82%, respectively.

Share

COinS