Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การจำแนกอารมณ์จากเสียงพูดข้ามภาษาโดยใช้ข้อมูลภาษาอังกฤษและภาษาจีนกลางบนข้อมูลภาษาไทย
Year (A.D.)
2024
Document Type
Thesis
First Advisor
Seksan Kiatsupaibul
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Statistics
DOI
10.58837/CHULA.THE.2024.132
Abstract
This study explores the efficacy of cross-lingual Speech Emotion Recognition (SER) using Thai as a target language with training sets in English and Mandarin. The study evaluates the adaptability of SER models across linguistic boundaries, emphasizing the challenges and potential of leveraging well-resourced languages to enhance emotion recognition capabilities in a language with fewer resources. Through a series of experiments, the research investigates three primary aspects: the performance of same-corpus training within Thai, cross-lingual model application from English and Mandarin to Thai, and the effectiveness of transfer learning techniques in improving model accuracy. The findings indicate that Mandarin facilitates more effective cross-lingual SER with Thai compared to English. However, despite the initial promise, models trained on Mandarin or English and applied to Thai did not outperform those trained directly on Thai in the same-corpus settings, suggesting limited benefits from cross-lingual training without sophisticated adaptation methods. Transfer learning emerged as a pivotal strategy, particularly when models pre-trained on large datasets in Mandarin were fine-tuned with Thai data, showing improved performance, and suggesting a scalable approach for deploying SER systems in multilingual contexts.
Other Abstract (Other language abstract of ETD)
การศึกษานี้สำรวจประสิทธิภาพของการจำแนกอารมณ์จากเสียงพูดข้ามภาษา (Speech Emotion Recognition หรือ SER) โดยใช้ภาษาไทยเป็นภาษาปลายทางด้วยชุดข้อมูลฝึกภาษาอังกฤษและภาษาจีนกลาง การศึกษานี้ประเมินความสามารถในการปรับตัวของแบบจำลอง SER เมื่อข้ามขอบเขตทางภาษา โดยให้ความสนใจไปที่การใช้งานศักยภาพของภาษาที่มีทรัพยากรมากเพียงพอเพื่อเพิ่มความสามารถในการจำแนกอารมณ์ในภาษาที่มีทรัพยากรจำกัด การวิจัยนี้สำรวจสามประเด็นหลัก: ประสิทธิภาพของการฝึกแบบจำลองในภาษาไทยด้วยกันเอง การประยุกต์ใช้แบบจำลองข้ามภาษาบนภาษาไทยจากภาษาอังกฤษและภาษาจีนกลาง และการประยุกต์ใช้ศักยภาพของเทคนิคการเรียนรู้แบบถ่ายโอน (Transfer Learning) ในการปรับปรุงความแม่นยำของแบบจำลอง ผลการศึกษาพบว่าภาษาจีนกลางช่วยให้การจำแนกอารมณ์จากเสียงพูดข้ามภาษาบนภาษาไทยมีประสิทธิภาพมากกว่าภาษาอังกฤษ อย่างไรก็ตามแม้ว่าผลลัพธ์เริ่มต้นจะมีแนวโน้มที่ดี แต่แบบจำลองที่ได้รับการฝึกจากภาษาอังกฤษหรือภาษาจีนกลางจากนั้นนำมาใช้ทดสอบกับภาษาไทยก็ยังไม่สามารถเอาชนะแบบจำลองที่ได้รับการฝึกโดยตรงจากภาษาไทยได้ ซึ่งแสดงให้เห็นถึงข้อจำกัดในการฝึกข้ามภาษา การเรียนรู้แบบถ่ายโอนจึงกลายเป็นกลยุทธ์สำคัญโดยเฉพาะเมื่อใช้แบบจำลองที่ได้รับการฝึกล่วงหน้าจากชุดข้อมูลภาษาจีนกลางก่อนและจากนั้นจึงปรับแต่งด้วยข้อมูลภาษาไทยที่ทำให้ประสิทธิภาพดีขึ้น พร้อมทั้งยังเสนอแนวทางในการขยายขนาดการทดลองสำหรับการใช้งานระบบ SER ในบริบทหลายภาษาได้
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Wonghirunruch, Kantapong, "Cross-lingual speech emotion recognition using English and Mandarin on Thai data" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 11262.
https://digital.car.chula.ac.th/chulaetd/11262