Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การออกแบบและวัดผลของคลังข้อมูลรู้จำแนกอารมณ์ด้วยเสียงภาษาไทยบนการกำกับข้อมูลที่มีความกำกวม

Year (A.D.)

2025

Document Type

Thesis

First Advisor

Ekapol Chuangsuwanich

Second Advisor

Sarana Nutanong

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

Master of Engineering

Degree Level

Master's Degree

Degree Discipline

Computer Engineering

DOI

10.58837/CHULA.THE.2025.4

Abstract

THAI-SER is the first large-scale Thai speech emotion recognition corpus, comprising 41.6 hours (27,854 utterances) from 100 recordings across diverse environments (Zoom and studio). The data includes both scripted and improvised speech by 200 professional actors (112 females, 88 males, aged 18–55), covering five emotions: neutral, angry, happy, sad, and frustrated. Utterances were labeled via crowdsourcing, with rigorous quality control ensuring a majority agreement score above 0.71. Annotation reliability, measured by Krippendorff’s alpha, reached 0.692 (above the 0.667 threshold), and human emotion recognition accuracy reached 0.772 after filtering. We also report benchmark results from models trained and evaluated on both in-corpus and cross-corpus setups. Additionally, we conduct an analysis of utilizing ambiguous samples from low agreement score samples on THAI-SER. The corpus and experimental code are available under a CC BY-SA 4.0 license. Our experiment code is also available at: https://github.com/tann9949/thaiser-experiments

Other Abstract (Other language abstract of ETD)

วิทยานิพนธ์เล่มนี้เสนอชุดข้อมูล THAI-SER ซึ่งเป็นชุดข้อมูลขนาดใหญ่ชุดแรกสำหรับการรู้จำอารมณ์จากเสียงพูดภาษาไทย โดยประกอบด้วยข้อมูล 41.6 ชั่วโมง (27,854 ประโยค) จากการบันทึก 100 รายการ ในสภาพแวดล้อมที่หลากหลาย (ผ่าน Zoom และในสตูดิโอ) ข้อมูลประกอบด้วยคำพูดที่ทั้งเขียนบทไว้ล่วงหน้าและด้นสดโดยนักแสดงมืออาชีพ 200 คน (หญิง 112 คน ชาย 88 คน อายุ 18–55 ปี) ครอบคลุมห้าอารมณ์ ได้แก่ ปกติ โกรธ ดีใจ เศร้า และหงุดหงิด ประโยคต่างๆ ได้ผ่านการกำกับผ่านการกำกับข้อมูลจากชุมชน (crowdsourcing) โดยมีการควบคุมคุณภาพอย่างเข้มงวดเพื่อให้ได้คะแนนความเห็นพ้องของการกำกับข้อมูลสูงกว่า 0.71 เกณฑ์ความน่าเชื่อถือของการกำกับข้อมูล ซึ่งวัดโดย Krippendorff’s alpha มีค่า 0.692 (สูงกว่าเกณฑ์ 0.667) และความแม่นยำในการรู้จำอารมณ์ของมนุษย์สูงถึง 0.772 หลังการกรองข้อมูล นอกจากนี้ วิทยานิพนธ์เล่มนี้ยังครอบคลุมถึงการเสนอวิธีในการวัดผลแบบจำลองปัญญาประดิษฐ์สำหรับรู้จำอารมณ์จากเสียงพูดด้วยชุดข้อมูล THAI-SER และได้มีการรายงานผลลัพธ์จากแบบจำลองปัญญาประดิษฐ์ที่ฝึกและวัดผลจากทั้งในชุดข้อมูลเดียวกันและข้ามชุดข้อมูล รวมทั้งมีการทดลองในการใช้ชุดข้อมูลที่มีการกำกับที่กำกวมในชุดข้อมูล ชุดข้อมูลและโค้ดการทดลองเผยแพร่ภายใต้สัญญาอนุญาต CC BY-SA 4.0 รวมถึงโค้ดการทดลอง: https://github.com/tann9949/thaiser-experiments

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.