Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Question generation in the Thai language using MT5

Year (A.D.)

2021

Document Type

Thesis

First Advisor

อติวงศ์ สุชาโต

Second Advisor

โปรดปราน บุณยพุกกณะ

Third Advisor

เนื่องวงศ์ ทวยเจริญ

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2021.850

Abstract

มีงานวิจัยเกี่ยวกับเรื่องการสร้างคำถามอยู่จำนวนมากในขอบเขตภาษาอังกฤษแต่แทบไม่มีงานวิจัยเรื่องการสร้างคำถามในภาษาไทย มีชุดข้อมูลคำถาม-คำตอบในขอบเขตของภาษาอังกฤษมากกว่า 1 ล้านคู่คำถาม-คำตอบซึ่งมีจำนวนมากเมื่อเปรียบเทียบกับในขอบเขตของภาษาไทยที่มีอยู่เพียงประมาณ 12,000 คู่ งานวิจัยนี้ขอนำเสนอวิธีพัฒนาการสร้างคำถามอัตโนมัติจากบทความโดยไม่ต้องมีคำตอบในการสร้างคำถาม ภายใต้เงื่อนไขการฝึกสอนจากชุดข้อมูลที่มีอยู่อย่างจำกัด โดยแบบจำลองการสร้างคำถามอัตโนมัติซึ่งฝึกสอนโดยแบบจำลองที่ผ่านการเรียนรู้มาก่อน MT5 จากชุดข้อมูลที่มนุษย์สร้างขึ้น สามารถสร้างคำถามจากชุดข้อมูลภาษาไทยที่เมื่อประเมินอัตโนมัติโดยวัดจากคะแนน BLEU-1 ได้คะแนน 56.19 เราจึงนำเสนอวิธีการเพิ่มประสิทธิภาพการสร้างคำถามจากการสังเคราะห์ข้อมูลและกลไกที่นำเสนอเพิ่มเติมโดยยังคงใช้เพียงแบบจำลองที่ผ่านการเรียนรู้มาก่อน MT5 ซึ่งแบบจำลองที่ผ่านการพัฒนาแล้วมีคะแนน BLEU-1 ถึง 59.03 มากกว่าแบบจำลองที่ผ่านมา นอกจากนี้ผลการประเมินประสิทธิภาพของคำถามโดยมนุษย์ยังแสดงคะแนนด้านความไพเราะ 4.40 คะแนน, ด้านความเกี่ยวข้องกับบทความ 4.65 คะแนนและด้านการตอบคำถามได้จากบทความ 4.7 คะแนนจากทั้งหมด 5 คะแนน

Other Abstract (Other language abstract of ETD)

There are numerous publications of Question Generation (QG) in English but less in Thai. More than million question-answer pairs are available in the English language, compared with only around 12,000 question-answer pairs in the Thai language. This paper presents a method to improve automatic Thai QG from given passages without an answer. Under a dataset of insufficient size. Our evaluation showed that a QG model which was trained by the pre-trained model MT5 from a Thai dataset achieved a BLEU-1 score of 56.19. We proposed a method to generate synthetic data and an additional mechanism by using a single pre-trained model. Our best model outperformed the previous model by achieving a BLEU-1 score of 59.03. The results and from human evaluation in fluency score was 4.40, the relevance score is 4.65, and the answer-ability score is 4.7 from 5.0.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.