Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การจำแนกอารมณ์จากเสียงพูดข้ามภาษาโดยใช้ข้อมูลภาษาอังกฤษและภาษาจีนกลางบนข้อมูลภาษาไทย

Year (A.D.)

2024

Document Type

Thesis

First Advisor

Seksan Kiatsupaibul

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

Master of Science

Degree Level

Master's Degree

Degree Discipline

Statistics

DOI

10.58837/CHULA.THE.2024.132

Abstract

This study explores the efficacy of cross-lingual Speech Emotion Recognition (SER) using Thai as a target language with training sets in English and Mandarin. The study evaluates the adaptability of SER models across linguistic boundaries, emphasizing the challenges and potential of leveraging well-resourced languages to enhance emotion recognition capabilities in a language with fewer resources. Through a series of experiments, the research investigates three primary aspects: the performance of same-corpus training within Thai, cross-lingual model application from English and Mandarin to Thai, and the effectiveness of transfer learning techniques in improving model accuracy. The findings indicate that Mandarin facilitates more effective cross-lingual SER with Thai compared to English. However, despite the initial promise, models trained on Mandarin or English and applied to Thai did not outperform those trained directly on Thai in the same-corpus settings, suggesting limited benefits from cross-lingual training without sophisticated adaptation methods. Transfer learning emerged as a pivotal strategy, particularly when models pre-trained on large datasets in Mandarin were fine-tuned with Thai data, showing improved performance, and suggesting a scalable approach for deploying SER systems in multilingual contexts.

Other Abstract (Other language abstract of ETD)

การศึกษานี้สำรวจประสิทธิภาพของการจำแนกอารมณ์จากเสียงพูดข้ามภาษา (Speech Emotion Recognition หรือ SER) โดยใช้ภาษาไทยเป็นภาษาปลายทางด้วยชุดข้อมูลฝึกภาษาอังกฤษและภาษาจีนกลาง การศึกษานี้ประเมินความสามารถในการปรับตัวของแบบจำลอง SER เมื่อข้ามขอบเขตทางภาษา โดยให้ความสนใจไปที่การใช้งานศักยภาพของภาษาที่มีทรัพยากรมากเพียงพอเพื่อเพิ่มความสามารถในการจำแนกอารมณ์ในภาษาที่มีทรัพยากรจำกัด การวิจัยนี้สำรวจสามประเด็นหลัก: ประสิทธิภาพของการฝึกแบบจำลองในภาษาไทยด้วยกันเอง การประยุกต์ใช้แบบจำลองข้ามภาษาบนภาษาไทยจากภาษาอังกฤษและภาษาจีนกลาง และการประยุกต์ใช้ศักยภาพของเทคนิคการเรียนรู้แบบถ่ายโอน (Transfer Learning) ในการปรับปรุงความแม่นยำของแบบจำลอง ผลการศึกษาพบว่าภาษาจีนกลางช่วยให้การจำแนกอารมณ์จากเสียงพูดข้ามภาษาบนภาษาไทยมีประสิทธิภาพมากกว่าภาษาอังกฤษ อย่างไรก็ตามแม้ว่าผลลัพธ์เริ่มต้นจะมีแนวโน้มที่ดี แต่แบบจำลองที่ได้รับการฝึกจากภาษาอังกฤษหรือภาษาจีนกลางจากนั้นนำมาใช้ทดสอบกับภาษาไทยก็ยังไม่สามารถเอาชนะแบบจำลองที่ได้รับการฝึกโดยตรงจากภาษาไทยได้ ซึ่งแสดงให้เห็นถึงข้อจำกัดในการฝึกข้ามภาษา การเรียนรู้แบบถ่ายโอนจึงกลายเป็นกลยุทธ์สำคัญโดยเฉพาะเมื่อใช้แบบจำลองที่ได้รับการฝึกล่วงหน้าจากชุดข้อมูลภาษาจีนกลางก่อนและจากนั้นจึงปรับแต่งด้วยข้อมูลภาษาไทยที่ทำให้ประสิทธิภาพดีขึ้น พร้อมทั้งยังเสนอแนวทางในการขยายขนาดการทดลองสำหรับการใช้งานระบบ SER ในบริบทหลายภาษาได้

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.