Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การแก้ไขไวยากรณ์ประโยคภาษาไทยของนักเรียนหูหนวก
Year (A.D.)
2024
Document Type
Thesis
First Advisor
Ekapol Chuangsuwanich
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Doctor of Philosophy
Degree Level
Doctoral Degree
Degree Discipline
Computer Engineering
DOI
10.58837/CHULA.THE.2024.290
Abstract
Deaf students encounter challenges in written communication due to errors such as insertion, deletion, disorder, misusage, and misspellings. Grammatical error correction (GEC) technology can help mitigate these issues. However, existing GEC models are primarily trained on online resources from second-language hearing learners. In contrast, sentences written by deaf students suffer from a variety of errors not typically found elsewhere. To address this issue, we create the Thai Deaf Corpus (TDC), focusing on identifying and analyzing errors among deaf students in grades 7-12 across four deaf schools. Additionally, we introduce a two-stage system for the Thai-GEC model, automatically detecting and correcting incorrect words in ungrammatical sentences written by deaf students. In our experiment, we compare the performance of the recurrent neural networks (RNN) detection model with and without feature embeddings from different sources—TDC and News corpus; moreover, we compare three correction models: WangchanBERTa and Seq2Seq models with and without pretraining. Our analysis of the TDC shows that deaf students use simpler words and shorter sentences compared to hearing peers, who often use complex vocabulary and lengthy sentences. The RNN detection model with feature embeddings learned from only TDC can outperform the others. The Seq2Seq correction model with pretraining outperforms others as it learns from formal and grammatical sentences in the News corpus. The dataset is made available at https://github.com/Supachan/ThaiDeafCorpus.git.
Other Abstract (Other language abstract of ETD)
นักเรียนหูหนวกมีความท้าทายในการเขียนเพื่อสื่อสารกับนักเรียนหูดี แต่การเขียนมีความผิดพลาดคือ การเติมคำ การละคำ การสลับคำ การเลือกคำผิด และการสะกดคำผิด อย่างไรก็ดี เทคโนโลยีการแก้ไขความผิดพลาดไวยากรณ์สามารถช่วยแก้ปัญหาเหล่านี้ได้ แต่โมเดลแก้ไขไวยากรณ์ในปัจจุบัน มักถูกฝึกฝนจากข้อมูลที่เป็นประโยคซึ่งเขียนโดยผู้เรียนหูดีที่เรียนภาษาที่สองและเป็นข้อมูลปรากฏในออนไลน์ ในทางตรงกันข้าม ประโยคที่เขียนของนักเรียนหูหนวกมักปรากฏในสมุด และไม่ได้มีการเผยแพร่ออนไลน์ที่เป็นรูปแบบข้อความ ดังนั้น ผู้วิจัยสร้างคลังข้อมูลภาษาไทยสำหรับนักเรียนหูหนวก (Thai Deaf Corpus, TDC) เพื่อนับระบุและวิเคราะห์ความผิดพลาดการเขียนของนักเรียนหูหนวกในชั้นมัธยมศึกษาปีที่ 1-6 จากโรงเรียนโสตศึกษาในกรุงเทพมหานครและปริมณฑลจำนวน 4 แห่ง นอกจากนี้ ผู้วิจัยเสนอระบบสองขั้นตอนสำหรับการแก้ไขไวยากรณ์ภาษาไทย ซึ่งสามารถตรวจจับและแก้ไขประโยคที่ผิดได้อย่างอัตโนมัติ ในการทดลอง ผู้วิจัยเปรียบเทียบประสิทธิภาพของโมเดลตรวจจับด้วยโครงข่ายประสาทเทียมแบบวนกลับ (Recurrent-neural-network, RNN) โดยใช้และไม่ใช้การฝังคุณลักษณะ (feature embeddings) ที่เรียนรู้จากแหล่งข้อมูลแตกต่างกัน ได้แก่ คลังข้อมูลภาษาไทยสำหรับนักเรียนหูหนวกและคลังข้อมูลข่าว ทั้งนี้ ผู้วิจัยประเมินประสิทธิภาพทั้งสามโมเดล ได้แก่ WangchanBERTa และโมเดลแก้ไขไวยากรณ์ภาษาไทยด้วยลำดับความต่อเนื่องสู่ลำดับความต่อเนื่อง (sequence-to-sequence, Seq2Seq model) ที่ผ่านการฝึกฝนและไม่ได้ผ่านการฝึกฝน ผลการวิเคราะห์จากคลังข้อมูลภาษาไทยสำหรับนักเรียนหูหนวก พบว่า นักเรียนหูหนวกใช้คำศัพท์ที่ง่าย และเขียนประโยคที่สั้นกว่า เมื่อเปรียบเทียบกับนักเรียนหูดีที่ใช้คำศัพท์ที่ซับซ้อนและเขียนประโยคที่ยาวกว่า นอกจากนี้ โมเดลตรวจจับด้วย RNN โดยใช้การฝังคุณลักษณะที่เรียนรู้จาก TDC อย่างเดียว ให้ประสิทธิภาพได้ดีกว่าโมเดลอื่นๆ ส่วนโมเดลแก้ไขไวยากรณ์ภาษาไทยแบบ Seq2Seq ที่ผ่านการฝึกฝนมีประสิทธิภาพที่ดีกว่าโมเดลอื่น เพราะได้เรียนรู้ข้อมูลข่าวที่มีความถูกต้องตามไวยากรณ์ คลังข้อมูลภาษาไทยสำหรับนักเรียนหูหนวกได้ปรากฏใน https://github.com/Supachan/ThaiDeafCorpus.git
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Traitruengsakul, Supachan, "Grammatical error correction in thai sentences for deaf students" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 11587.
https://digital.car.chula.ac.th/chulaetd/11587