Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การแก้คำผิดและทำให้เป็นมาตราฐานบนข้อความโซเชียลมีเดียภาษาไทยโดยการทำงานสองขั้นตอนด้วยโครงข่ายประสาทเทียมที่ใช้กลไกจุดสนใจบนบริบท
Year (A.D.)
2019
Document Type
Thesis
First Advisor
Ekapol Chuangsuwanich
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Master of Engineering
Degree Level
Master's Degree
Degree Discipline
Computer Engineering
DOI
10.58837/CHULA.THE.2019.155
Abstract
Text correction systems (e.g., spell checkers) have been used to improve the quality of computerized text by detecting and correcting errors. However, the task of performing spelling correction and word normalization (text correction) for Thai social media text has remained largely unexplored. In this thesis, we investigated how current text correction systems perform on correcting errors and word variances in Thai social texts and propose a method designed for this task. We have found that currently available Thai text correction systems are insufficiently robust for correcting spelling errors and word variances, while the text correctors designed for English grammatical error correction suffer from overcorrections (text rewrites). Thus, we proposed a neural-based text corrector with a two-stage structure to alleviate issues of overcorrections while exploiting the benefits of a neural Seq2Seq corrector. Our method consists of a neural-based error detector and a Seq2Seq neural error corrector with contextual attention. This novel architecture allows the Seq2Seq network to produce corrections based on both the erroneous text and its context without the need for an end-to-end structure. Our method outperformed all the other evaluated text correction systems.
Other Abstract (Other language abstract of ETD)
ระบบแก้ไขข้อความ (เช่นระบบแก้คำผิด) ถูกนำมาใช้เพื่อปรับปรุงคุณภาพของข้อมูลตัวอักษรบนระบบคอมพิวเตอร์โดยการตรวจจับและแก้ไขข้อผิดพลาด งานวิจัยก่อนหน้ายังไม่ได้รับการสำรวจโจทย์การแก้ไขคำผิดและการทำให้เป็นมาตรฐานของข้อความ (การแก้ไขข้อความ) สำหรับข้อความโซเชียลมีเดียภาษาไทย ในวิทยานิพนธ์ฉบับนี้เราได้ศึกษาความสามารถของระบบแก้ไขข้อความในปัจจุบันบนโจทย์การแก้ไขคำผิดและการทำให้เป็นมาตรฐานของข้อความ บนโซเชียลมีเดียภาษาไทย และ เสนอวิธีการที่ได้ถูกออกแบบมาสำหรับโจทย์นี้ เราพบว่าระบบแก้ไขข้อความภาษาไทยที่มีอยู่ในปัจจุบันมีประสิทธิภาพไม่เพียงพอสำหรับการแก้ไขคำผิดและความไม่เป็นมาตรฐานของข้อความ ในขณะที่ระบบแก้ไขข้อผิดพลาดทางไวยากรณ์ภาษาอังกฤษมีปัญหาการแก้ไขมากเกินไป (การเขียนข้อความใหม่) ดังนั้นเราจึงเสนอระบบแก้ไขข้อความ ซึ่งใช้ระบบประสาทเทียมที่งานสองขั้นตอนเพื่อบรรเทาปัญหาการแก้ไขมากเกินไปในขณะที่ได้ประโยชน์จากระบบประสาทเทียมแบบข้อความสู่ข้อความ ระบบของเราประกอบด้วยตัวตรวจจับข้อผิดพลาดที่ใช้ระบบประสาทเทียม และตัวแก้ไขข้อผิดพลาดทางประสาทแบบข้อความสู่ข้อความที่ใช้กลไกจุดสนใจบนบริบท สถาปัตยกรรมแบบใหม่นี้ช่วยให้ระบบประสาทเทียมแบบข้อความสู่ข้อความสร้างแก้ไขตามทั้งข้อความโดยคำนึงถึงบริบทโดยไม่จำเป็นต้องทำงานแบบหนึ่งขั้นตอนวิธีการของเรามีประสิทธิภาพดีกว่าระบบแก้ไขข้อความอื่นๆ ที่เราได้ประเมินทั้งหมด
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Lertpiya, Anuruth, "Thai spelling correction and word normalization on social text using a two-stage pipeline with neural contextual attention" (2019). Chulalongkorn University Theses and Dissertations (Chula ETD). 8531.
https://digital.car.chula.ac.th/chulaetd/8531