Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การออกแบบและวัดผลของคลังข้อมูลรู้จำแนกอารมณ์ด้วยเสียงภาษาไทยบนการกำกับข้อมูลที่มีความกำกวม
Year (A.D.)
2025
Document Type
Thesis
First Advisor
Ekapol Chuangsuwanich
Second Advisor
Sarana Nutanong
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Master of Engineering
Degree Level
Master's Degree
Degree Discipline
Computer Engineering
DOI
10.58837/CHULA.THE.2025.4
Abstract
THAI-SER is the first large-scale Thai speech emotion recognition corpus, comprising 41.6 hours (27,854 utterances) from 100 recordings across diverse environments (Zoom and studio). The data includes both scripted and improvised speech by 200 professional actors (112 females, 88 males, aged 18–55), covering five emotions: neutral, angry, happy, sad, and frustrated. Utterances were labeled via crowdsourcing, with rigorous quality control ensuring a majority agreement score above 0.71. Annotation reliability, measured by Krippendorff’s alpha, reached 0.692 (above the 0.667 threshold), and human emotion recognition accuracy reached 0.772 after filtering. We also report benchmark results from models trained and evaluated on both in-corpus and cross-corpus setups. Additionally, we conduct an analysis of utilizing ambiguous samples from low agreement score samples on THAI-SER. The corpus and experimental code are available under a CC BY-SA 4.0 license. Our experiment code is also available at: https://github.com/tann9949/thaiser-experiments
Other Abstract (Other language abstract of ETD)
วิทยานิพนธ์เล่มนี้เสนอชุดข้อมูล THAI-SER ซึ่งเป็นชุดข้อมูลขนาดใหญ่ชุดแรกสำหรับการรู้จำอารมณ์จากเสียงพูดภาษาไทย โดยประกอบด้วยข้อมูล 41.6 ชั่วโมง (27,854 ประโยค) จากการบันทึก 100 รายการ ในสภาพแวดล้อมที่หลากหลาย (ผ่าน Zoom และในสตูดิโอ) ข้อมูลประกอบด้วยคำพูดที่ทั้งเขียนบทไว้ล่วงหน้าและด้นสดโดยนักแสดงมืออาชีพ 200 คน (หญิง 112 คน ชาย 88 คน อายุ 18–55 ปี) ครอบคลุมห้าอารมณ์ ได้แก่ ปกติ โกรธ ดีใจ เศร้า และหงุดหงิด ประโยคต่างๆ ได้ผ่านการกำกับผ่านการกำกับข้อมูลจากชุมชน (crowdsourcing) โดยมีการควบคุมคุณภาพอย่างเข้มงวดเพื่อให้ได้คะแนนความเห็นพ้องของการกำกับข้อมูลสูงกว่า 0.71 เกณฑ์ความน่าเชื่อถือของการกำกับข้อมูล ซึ่งวัดโดย Krippendorff’s alpha มีค่า 0.692 (สูงกว่าเกณฑ์ 0.667) และความแม่นยำในการรู้จำอารมณ์ของมนุษย์สูงถึง 0.772 หลังการกรองข้อมูล นอกจากนี้ วิทยานิพนธ์เล่มนี้ยังครอบคลุมถึงการเสนอวิธีในการวัดผลแบบจำลองปัญญาประดิษฐ์สำหรับรู้จำอารมณ์จากเสียงพูดด้วยชุดข้อมูล THAI-SER และได้มีการรายงานผลลัพธ์จากแบบจำลองปัญญาประดิษฐ์ที่ฝึกและวัดผลจากทั้งในชุดข้อมูลเดียวกันและข้ามชุดข้อมูล รวมทั้งมีการทดลองในการใช้ชุดข้อมูลที่มีการกำกับที่กำกวมในชุดข้อมูล ชุดข้อมูลและโค้ดการทดลองเผยแพร่ภายใต้สัญญาอนุญาต CC BY-SA 4.0 รวมถึงโค้ดการทดลอง: https://github.com/tann9949/thaiser-experiments
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Chaksangchaichot, Chompakorn, "Design and evaluation of a Thai speech emotion recognition corpus with ambiguous annotations" (2025). Chulalongkorn University Theses and Dissertations (Chula ETD). 74841.
https://digital.car.chula.ac.th/chulaetd/74841