Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การเพิ่มข้อมูลสำหรับระบบประมวลภาษาธรรมชาติภาษาไทยโดยใช้การแบ่งเป็นโทเค็นที่แตกต่างกัน

Year (A.D.)

2021

Document Type

Thesis

First Advisor

Atiwong Suchato

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

Master of Engineering

Degree Level

Master's Degree

Degree Discipline

Computer Engineering

DOI

10.58837/CHULA.THE.2021.98

Abstract

Tokenization is one of the most important data pre-processing steps in the text classification task and also one of the main contributing factors in the model performance. However, getting good tokenizations is non-trivial when the input is noisy, and is especially problematic for languages without an explicit word delimiter such as Thai. Therefore, we proposed an alternative data augmentation method to improve the robustness of poor tokenization by using multiple tokenizations. We evaluated the performance of our algorithms on different Thai text classification datasets. The results suggested our augmentation scheme makes the model more robust to tokenization errors and can be combined well with other data augmentation schemes.

Other Abstract (Other language abstract of ETD)

การทำให้เป็นโทเค็น (tokenization) เป็นหนึ่งในขั้นตอนการดำเนินการเบื้องต้น (pre-processing) ในระบบของแบบจำลองแบ่งประเภทข้อความ (text classification model) และเป็นส่วนหนึ่งที่ส่งผลต่อประสิทธิภาพของแบบจำลอง แต่อย่างไรก็ตามการทำให้เป็นโทเค็น ไม่ใช่ปัญหาทั่วไปสำหรับ noisy text หรือ ภาษาที่ไม่มีขอบเขตของคำ (word boundary) ที่ชัดเจนเช่น ภาษาไทย ในการศึกษานี้เราได้นำเสนอวิธีการเพิ่มข้อมูล (data augmentation) เพื่อเพิ่มความคงทน (robustness) และประสิทธิภาพโดยการใช้การทำให้ เป็นโทเคนหลากหลายรูปแบบ (multi-tokenization) เราวัดผลบนแบบจำลองแบ่งประเภท ข้อความภาษาไทย จากผลการศึกษาพบว่าแบบจำลองที่ถูกเรียนรู้ด้วยการเพิ่มข้อมูลที่เรานำ เสนอนั้น สามารถคงทนต่อ การตัดคำที่ผิดพลาด และสามารถใช้ร่วมกับ การเพิ่มข้อมูลแบบอื่นด้วย

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.