Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A comparison of machine learning and neural network algorithms for an automated Thai essay quality checking

Year (A.D.)

2022

Document Type

Thesis

First Advisor

เจษฎา ธัชแก้วกรพินธุ์

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2022.774

Abstract

การตรวจสอบคุณภาพงานเขียนเรียงความในภาษาไทยยังคงเป็นงานที่ยุ่งยาก เนื่องจากเป็นภาษาที่ซับซ้อนมากทั้งในด้านเครื่องหมายวรรคตอน โครงสร้างประโยค การซ้ำคำ การสะกดคำ การแสดงความคิดเห็น และการให้เหตุผล ดังนั้นการตรวจสอบคุณภาพงานเขียนเรียงความภาษาไทยจึงเป็นงานที่ต้องอาศัยทักษะของผู้ตรวจทั้งด้านการอ่านและการตีความ ทำให้ใช้เวลาในการตรวจคุณภาพงานเขียนมาก นอกจากนี้หากมีผู้ตรวจมากกว่า 1 คน อาจส่งผลต่อมาตรฐานที่ใช้ในการตรวจสอบคุณภาพงานเขียนที่แตกต่างกัน งานวิจัยนี้ได้รวบรวมข้อมูลเรียงความภาษาไทยที่เขียนโดยนิสิตที่ลงทะเบียนเรียนในหลักสูตรการเขียนย่อหน้า จากสถาบันภาษาไทยสิรินธรแห่งจุฬาลงกรณ์มหาวิทยาลัย และนำแบบจำลองหน่วยความจำระยะสั้นแบบยาว (LSTM) แบบจำลองโครงข่ายประสาทเทียมแบบสังวัตนาการ (CNN) แบบจำลองเบิร์ต (BERT) และแบบจำลองวังจันทร์เบอร์ต้า (WangchanBERTa) มาพัฒนาระบบสำหรับการตรวจสอบคุณภาพงานเขียนอัตโนมัติ เพื่อเปรียบเทียบประสิทธิภาพการตรวจสอบคุณภาพงานเขียนเรียงความในภาษาไทย จากผลการทดลองแบบจำลอง WangchanBERTa ที่ประมวลผลด้วย Adam Optimizer และใช้ Binary Crossentropy เป็น Loss Function เหมาะกับปัญหาประเภทการจัดกลุ่ม โดยมีประสิทธิภาพในการทำนายคุณภาพการเขียนเรียงความในภาษาไทยสูง และมีค่าความถูกต้องสูงกว่า 90% ส่วนแบบจำลอง CNN มีค่าความถูกต้องสูงกว่า 87% ในขณะที่เมื่อประมวลผลด้วย RMSprop Optimizer และใช้ Mean Squared Error เป็น Loss Function เหมาะกับปัญหาประเภทการถดถอยและมีความถูกต้องอยู่ในช่วง 90% - 98% จึงสรุปได้ว่าแบบจำลอง WangchanBERTa เหมาะสำหรับปัญหาการจำแนกประเภท และแบบจำลอง CNN เหมาะสำหรับปัญหาการถดถอย เพื่อให้สามารถทำนายคุณภาพงานเขียนเรียงความในความภาษาไทยได้อย่างมีประสิทธิภาพสูงสุด

Other Abstract (Other language abstract of ETD)

Checking the quality of essay writing in Thai language is still a complicated task because Thai language is very complex language in terms of punctuation, sentence structure, word repetition, spelling, commenting, and reasoning in content. Therefore, checking the quality of an essay and scoring require the reviewer's skills in reading and interpreting that make long time to review. In addition, if in reviewing process using more than one reviewer, it might affect different quality checking standards. We collected essay in Thai language which is written by student who registered paragraph writing course from The Sirindhorn Thai Language Institute of This work implemented LSTM model, CNN model, BERT model and WangchanBERTa model to compare the effectiveness of checking the quality of Thai essay writing. Our experimental result shows that classification analysis compiled with WangchanBERTa can achieve high accuracy up to 90%. However, CNN model compiled with classification analysis can achieve high accuracy up to 87% while compiled with regression analysis can achieve high accuracy in the range 90%. In conclusion, the system that we proposed can predict the quality of Thai essays with high accuracy. Therefore, we recommended Wangchanberta model for classification problem and CNN model for regression problem.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.