Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Extractive text summarization for Thai travel news
Year (A.D.)
2020
Document Type
Thesis
First Advisor
ดวงดาว วิชาดากุล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมซอฟต์แวร์
DOI
10.58837/CHULA.THE.2020.1139
Abstract
ปัจจุบันเทคโนโลยีทางด้านคอมพิวเตอร์มีความสำคัญต่อการดำเนินชีวิตประจำวันของมนุษย์เป็นอย่างมากและยังถือว่าเป็นเครื่องมือที่ใช้ในการอำนวยความสะดวกให้แก่มนุษย์มากมายโดยเฉพาะทางด้านการสื่อสารผ่านสังคมออนไลน์ เพื่อลดเวลาในการอ่านข่าวหรืออ่านบทความและข่าวออนไลน์ต่างๆ จากการวิจัยที่ผ่านมามีการศึกษาและพัฒนาการสรุปใจความสำคัญของภาษาไทยเป็นจำนวนมาก ในงานวิจัยนี้ได้นำเสนอวิธีการสรุปใจความสำคัญจากข่าวการท่องเที่ยวภาษาไทย 2 วิธีคือการเลือกประโยคจากการจัดกลุ่มประโยคด้วยเคมีนและการเลือกประโยคด้วยวิธีหาคำสำคัญประโยคจากหัวข้อข่าว โดยมีการพัฒนาและสร้างคลังข้อมูลรายการคำประสมเพื่อช่วยเพิ่มประสิทธิภาพในการตัดคำ โดยการทดลองนี้ใช้ข้อมูลข่าวการท่องเที่ยวไทย ทั้งหมด 400 ข่าวสำหรับใช้ทดลองในการสรุปใจความสำคัญ และ 5,000 ข่าวสำหรับการสร้างคลังข้อมูลรายการคำประสม การวัดประสิทธิภาพของวิธีการที่นำเสนอ มีการวัดประสิทธิภาพการสรุปใจความสำคัญโดยการเปรียบเทียบผลจากการสรุปที่ได้จากผู้เชี่ยวชาญด้านภาษาไทยเทียบกับผลสรุปที่ได้จากวิธีการที่นำเสนอ จากงานวิจัยนี้ในขั้นตอนการสร้างคำประสมได้คำประสมทั้งหมด จำนวน 2,340 คำ ผลการทดลองพบว่าวิธีตัดคำด้วยคัตคำร่วมกับตัดคำประสมได้ผลดีกว่าการตัดคำจากคัตคำเพียงอย่างเดียว และการสรุปใจความสำคัญโดยใช้การคำนวณค่าน้ำหนักของคำสำคัญโดยหาค่าความถี่ของคำจากหัวข้อข่าวเพียงอย่างเดียวและเลือกประโยคเรียงลำดับจากผลรวมความถี่ของคำสำคัญจากหัวข้อข่าวมีประสิทธิภาพและความแม่นยำสูงสุดโดยมีค่าความแม่นยำ ค่าความระลึกและค่าวัดประสิทธิภาพอยู่ที่ 0.8097 0.8367 และ 0.8216 ตามลำดับและเมื่อใช้คัตคำร่วมกับการตัดคำแบบเอ็นแกรมโดยวิธีการสรุปใจความสำคัญแบบเดียวกันได้ค่าความแม่นยำ ค่าความระลึกและค่าวัดประสิทธิภาพอยู่ที่ 0.8119 0.8398 และ 0.8242 ตามลำดับที่อัตราการบีบอัดร้อยละ 20
Other Abstract (Other language abstract of ETD)
The daily newspaper has abundant data that users do not have enough time for reading them. It is difficult to identify relevant information to satisfy the information needed by users. Automatic summarization can reduce the problem of information overloading. Previously, many methodologies have been proposed for English and other languages. However, there were only a few research results in Thai text summarization due to the lack of a corpus in the Thai language and complicated grammar. In this research, we compared two methodologies of document summarization in Thai language. The first method is sentence selection by k-means and the second method is the sentence extraction function based on keyword score. In this research, we also created the 2,340 compound noun corpus from 5,000 news to improve the document summarization and collected 400 Thai travel news for evaluating the summarization. The sentence extraction function based on keyword score summation got the highest accuracy, recall and F1-score at 0.8097 0.8367 and 0.8216 respectively. Applying n-gram with the same summarization method, the accuracy, precision, and recall became 0.8119 0.8398 and 0.8242 with the 20% compression rate.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
นาทองห่อ, ศรัญญา, "การสรุปใจความสำคัญของข้อความแบบสกัดสำหรับข่าวท่องเที่ยวภาษาไทย" (2020). Chulalongkorn University Theses and Dissertations (Chula ETD). 3797.
https://digital.car.chula.ac.th/chulaetd/3797