Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
ไขสรรพนามไร้รูปภาษาไทยโดยใช้แบบจำลองทางภาษาแบบพรางคำ
Year (A.D.)
2022
Document Type
Independent Study
First Advisor
Attapol Thamrongrattanarit
Faculty/College
Faculty of Arts (คณะอักษรศาสตร์)
Department (if any)
Department of Linguistics (ภาควิชาภาษาศาสตร์)
Degree Name
Master of Arts
Degree Level
Master's Degree
Degree Discipline
Linguistics
DOI
10.58837/CHULA.IS.2022.32
Abstract
Zero pronoun resolution is an actively challenging NLP task in Thai. However, only a few previous studies have focused on this topic. Therefore, we explore a modern approach that could outperform existing state-of-the-art methods on various datasets and downstream tasks, the transformer-based, pre-trained language model, to apply to the Thai zero pronoun resolution task. We conduct two experiments on a small corpus, which are (1) using a pre-trained masked language model to predict zero pronominal expressions and (2) fine-tuning Wangchanberta on a token classification task to classify persons of pronouns. Based on our experiments, the results demonstrate the effectiveness of the pre-trained language model (1), which successfully encodes not only the grammatical features but also the system of Thai pronoun usage at the discourse level.
Other Abstract (Other language abstract of ETD)
การไขสรรพนามไร้รูปเป็นหนึ่งในงานที่ท้าทายในการประมวลผลภาษาธรรมชาติในภาษาไทย อย่างไรก็ตามงานศึกษาในหัวข้อดังกล่าวในทางภาษาศาสตร์คอมพิวเตอร์นั้นยังไม่เป็นที่แพร่หลายและยังไม่มีการนำข้อมูลภาษาไทยมาทดลองด้วยวิธีการใหม่ ๆ จากวิทยาการทางด้านนี้ ด้วยเหตุนี้ผู้วิจัยจึงสนใจประยุกต์แบบจำลองทางภาษาที่ผ่านการฝึกฝนมาแล้วจากสถาปัตยกรรมแบบทรานฟอร์เมอร์ ซึ่งเป็นวิธีใหม่ที่มีความแม่นยำสูงที่สุดในการทำงานประมวลผลภาษาธรรมชาติรูปแบบต่าง ๆ และยังสามารถใช้งานกับชุดข้อมูลที่หลากหลาย เพื่อมาใช้ในการไขสรรพนามไร้รูปภาษาไทย ผู้วิจัยทำการทดลองกับชุดข้อมูลขนาดเล็ก โดยออกแบบเป็น 2 การทดลอง คือ (1) ใช้แบบจำลองทางภาษาแบบพรางคำที่ผ่านการฝึกฝนมาแล้วเพื่อทำนายคำสรรพนามไร้รูป และ (2) ปรับแต่งการจำแนกคำในโมเดล Wangchanberta เพื่อให้จำแนกบุรุษของสรรพนามไร้รูป ผลลัพธ์จากการทดลองทั้งสองแสดงให้เห็นถึงประสิทธิภาพของแบบจำลองทางภาษาที่ผ่านการฝึกฝนมาแล้ว ที่ไม่เพียงแค่สามารถจับคุณลักษณะทางไวยากรณ์ของคำสรรพนามไร้รูปในภาษาไทยได้ แต่ยังสามารถเข้าใจระบบการเลือกใช้คำสรรพนามภาษาไทยในระดับปริจเฉทอีกด้วย
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Sumanakul, Sumana, "Resolving Thai zero pronoun using masked language model" (2022). Chulalongkorn University Theses and Dissertations (Chula ETD). 8114.
https://digital.car.chula.ac.th/chulaetd/8114