Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การตัดประโยคภาษาไทยโดยใช้แบบจำลองทางภาษาขนาดใหญ่

Year (A.D.)

2022

Document Type

Independent Study

First Advisor

Attapol Thamrongrattanarit

Faculty/College

Faculty of Arts (คณะอักษรศาสตร์)

Department (if any)

Department of Linguistics (ภาควิชาภาษาศาสตร์)

Degree Name

Master of Arts

Degree Level

Master's Degree

Degree Discipline

Linguistics

DOI

10.58837/CHULA.IS.2022.31

Abstract

Thai sentence segmentation has been on the topic of interest among Thai NLP communities. However, not much literature has explored the use of transformer-based large language models to tackle the issue. We conduct three experiments on the LST20 corpus, including (1) fine-tuning WangchanBERTa, a large language model pre-trained on Thai, across different classification tasks, (2) joint learning for clause and sentence segmentation, and (3) cross-lingual transfer using the multilingual model XLM-RoBERTa. Our findings show that WangchanBERTa outperforms other models in Thai sentence segmentation, and fine-tuning it with token and contextual information further improves its performance. However, cross-lingual transfer from English and Chinese to Thai is not effective for this task.

Other Abstract (Other language abstract of ETD)

การตัดประโยคภาษาไทยเป็นเรื่องที่มีผู้สนใจอยู่มาก แต่การตัดประโยคโดยใช้แบบจำลองทางภาษาขนาดใหญ่ซึ่งใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์ยังมีผู้ศึกษาไม่มากนัก ผู้วิจัยใช้คลังข้อมูล LST20 เพื่อทำการทดลองจำนวนสามการทดลองโดยประกอบไปด้วย (1) การปรับจูนการจำแนกคำในสถานการณ์ต่าง ๆ ด้วย WangchanBERTa ซึ่งเป็นแบบจำลองทางภาษาขนาดใหญ่ที่ฝึกฝนด้วยข้อมูลภาษาไทย (2) การใช้ Joint Learning สำหรับการตัดประโยคและอนุพากย์ และ (3) การถ่ายโอนข้ามภาษาโดยใช้ XLM-RoBERTa ซึ่งเป็นแบบจำลองหลากภาษา ผลการทดสอบพบว่า WangchanBERTa มีประสิทธิภาพดีกว่าแบบจำลองอื่นในการตัดประโยคภาษาไทย และเมื่อปรับจูนเพิ่มเติมด้วยข้อมูลคำและบริบทจะทำให้แบบจำลองดังกล่าวมีประสิทธิภาพดีขึ้น อย่างไรก็ตาม การถ่ายโอนข้ามภาษาจากภาษาอังกฤษและภาษาจีนไปยังภาษาไทยเป็นวิธีที่ไม่ได้ผลดีนักสำหรับการตัดประโยคภาษาไทย

Plum Print visual indicator of research metrics
PlumX Metrics
  • Citations
    • Citation Indexes: 4
  • Usage
    • Downloads: 385
    • Abstract Views: 228
see details

Included in

Linguistics Commons

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.