Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
A comparison of machine learning and neural network algorithms for an automated Thai essay quality checking
Year (A.D.)
2022
Document Type
Thesis
First Advisor
เจษฎา ธัชแก้วกรพินธุ์
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2022.774
Abstract
การตรวจสอบคุณภาพงานเขียนเรียงความในภาษาไทยยังคงเป็นงานที่ยุ่งยาก เนื่องจากเป็นภาษาที่ซับซ้อนมากทั้งในด้านเครื่องหมายวรรคตอน โครงสร้างประโยค การซ้ำคำ การสะกดคำ การแสดงความคิดเห็น และการให้เหตุผล ดังนั้นการตรวจสอบคุณภาพงานเขียนเรียงความภาษาไทยจึงเป็นงานที่ต้องอาศัยทักษะของผู้ตรวจทั้งด้านการอ่านและการตีความ ทำให้ใช้เวลาในการตรวจคุณภาพงานเขียนมาก นอกจากนี้หากมีผู้ตรวจมากกว่า 1 คน อาจส่งผลต่อมาตรฐานที่ใช้ในการตรวจสอบคุณภาพงานเขียนที่แตกต่างกัน งานวิจัยนี้ได้รวบรวมข้อมูลเรียงความภาษาไทยที่เขียนโดยนิสิตที่ลงทะเบียนเรียนในหลักสูตรการเขียนย่อหน้า จากสถาบันภาษาไทยสิรินธรแห่งจุฬาลงกรณ์มหาวิทยาลัย และนำแบบจำลองหน่วยความจำระยะสั้นแบบยาว (LSTM) แบบจำลองโครงข่ายประสาทเทียมแบบสังวัตนาการ (CNN) แบบจำลองเบิร์ต (BERT) และแบบจำลองวังจันทร์เบอร์ต้า (WangchanBERTa) มาพัฒนาระบบสำหรับการตรวจสอบคุณภาพงานเขียนอัตโนมัติ เพื่อเปรียบเทียบประสิทธิภาพการตรวจสอบคุณภาพงานเขียนเรียงความในภาษาไทย จากผลการทดลองแบบจำลอง WangchanBERTa ที่ประมวลผลด้วย Adam Optimizer และใช้ Binary Crossentropy เป็น Loss Function เหมาะกับปัญหาประเภทการจัดกลุ่ม โดยมีประสิทธิภาพในการทำนายคุณภาพการเขียนเรียงความในภาษาไทยสูง และมีค่าความถูกต้องสูงกว่า 90% ส่วนแบบจำลอง CNN มีค่าความถูกต้องสูงกว่า 87% ในขณะที่เมื่อประมวลผลด้วย RMSprop Optimizer และใช้ Mean Squared Error เป็น Loss Function เหมาะกับปัญหาประเภทการถดถอยและมีความถูกต้องอยู่ในช่วง 90% - 98% จึงสรุปได้ว่าแบบจำลอง WangchanBERTa เหมาะสำหรับปัญหาการจำแนกประเภท และแบบจำลอง CNN เหมาะสำหรับปัญหาการถดถอย เพื่อให้สามารถทำนายคุณภาพงานเขียนเรียงความในความภาษาไทยได้อย่างมีประสิทธิภาพสูงสุด
Other Abstract (Other language abstract of ETD)
Checking the quality of essay writing in Thai language is still a complicated task because Thai language is very complex language in terms of punctuation, sentence structure, word repetition, spelling, commenting, and reasoning in content. Therefore, checking the quality of an essay and scoring require the reviewer's skills in reading and interpreting that make long time to review. In addition, if in reviewing process using more than one reviewer, it might affect different quality checking standards. We collected essay in Thai language which is written by student who registered paragraph writing course from The Sirindhorn Thai Language Institute of This work implemented LSTM model, CNN model, BERT model and WangchanBERTa model to compare the effectiveness of checking the quality of Thai essay writing. Our experimental result shows that classification analysis compiled with WangchanBERTa can achieve high accuracy up to 90%. However, CNN model compiled with classification analysis can achieve high accuracy up to 87% while compiled with regression analysis can achieve high accuracy in the range 90%. In conclusion, the system that we proposed can predict the quality of Thai essays with high accuracy. Therefore, we recommended Wangchanberta model for classification problem and CNN model for regression problem.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
น้อยอยู่, ณิชาพรรณ, "การเปรียบเทียบการเรียนรู้ของเครื่องและโครงข่ายประสาทเทียมสําหรับการตรวจสอบคุณภาพงานเขียนอัตโนมัติ" (2022). Chulalongkorn University Theses and Dissertations (Chula ETD). 6484.
https://digital.car.chula.ac.th/chulaetd/6484