Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Extractive text summarization for Thai travel news

Year (A.D.)

2020

Document Type

Thesis

First Advisor

ดวงดาว วิชาดากุล

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมซอฟต์แวร์

DOI

10.58837/CHULA.THE.2020.1139

Abstract

ปัจจุบันเทคโนโลยีทางด้านคอมพิวเตอร์มีความสำคัญต่อการดำเนินชีวิตประจำวันของมนุษย์เป็นอย่างมากและยังถือว่าเป็นเครื่องมือที่ใช้ในการอำนวยความสะดวกให้แก่มนุษย์มากมายโดยเฉพาะทางด้านการสื่อสารผ่านสังคมออนไลน์ เพื่อลดเวลาในการอ่านข่าวหรืออ่านบทความและข่าวออนไลน์ต่างๆ จากการวิจัยที่ผ่านมามีการศึกษาและพัฒนาการสรุปใจความสำคัญของภาษาไทยเป็นจำนวนมาก ในงานวิจัยนี้ได้นำเสนอวิธีการสรุปใจความสำคัญจากข่าวการท่องเที่ยวภาษาไทย 2 วิธีคือการเลือกประโยคจากการจัดกลุ่มประโยคด้วยเคมีนและการเลือกประโยคด้วยวิธีหาคำสำคัญประโยคจากหัวข้อข่าว โดยมีการพัฒนาและสร้างคลังข้อมูลรายการคำประสมเพื่อช่วยเพิ่มประสิทธิภาพในการตัดคำ โดยการทดลองนี้ใช้ข้อมูลข่าวการท่องเที่ยวไทย ทั้งหมด 400 ข่าวสำหรับใช้ทดลองในการสรุปใจความสำคัญ และ 5,000 ข่าวสำหรับการสร้างคลังข้อมูลรายการคำประสม การวัดประสิทธิภาพของวิธีการที่นำเสนอ มีการวัดประสิทธิภาพการสรุปใจความสำคัญโดยการเปรียบเทียบผลจากการสรุปที่ได้จากผู้เชี่ยวชาญด้านภาษาไทยเทียบกับผลสรุปที่ได้จากวิธีการที่นำเสนอ จากงานวิจัยนี้ในขั้นตอนการสร้างคำประสมได้คำประสมทั้งหมด จำนวน 2,340 คำ ผลการทดลองพบว่าวิธีตัดคำด้วยคัตคำร่วมกับตัดคำประสมได้ผลดีกว่าการตัดคำจากคัตคำเพียงอย่างเดียว และการสรุปใจความสำคัญโดยใช้การคำนวณค่าน้ำหนักของคำสำคัญโดยหาค่าความถี่ของคำจากหัวข้อข่าวเพียงอย่างเดียวและเลือกประโยคเรียงลำดับจากผลรวมความถี่ของคำสำคัญจากหัวข้อข่าวมีประสิทธิภาพและความแม่นยำสูงสุดโดยมีค่าความแม่นยำ ค่าความระลึกและค่าวัดประสิทธิภาพอยู่ที่ 0.8097 0.8367 และ 0.8216 ตามลำดับและเมื่อใช้คัตคำร่วมกับการตัดคำแบบเอ็นแกรมโดยวิธีการสรุปใจความสำคัญแบบเดียวกันได้ค่าความแม่นยำ ค่าความระลึกและค่าวัดประสิทธิภาพอยู่ที่ 0.8119 0.8398 และ 0.8242 ตามลำดับที่อัตราการบีบอัดร้อยละ 20

Other Abstract (Other language abstract of ETD)

The daily newspaper has abundant data that users do not have enough time for reading them. It is difficult to identify relevant information to satisfy the information needed by users. Automatic summarization can reduce the problem of information overloading. Previously, many methodologies have been proposed for English and other languages. However, there were only a few research results in Thai text summarization due to the lack of a corpus in the Thai language and complicated grammar. In this research, we compared two methodologies of document summarization in Thai language. The first method is sentence selection by k-means and the second method is the sentence extraction function based on keyword score. In this research, we also created the 2,340 compound noun corpus from 5,000 news to improve the document summarization and collected 400 Thai travel news for evaluating the summarization. The sentence extraction function based on keyword score summation got the highest accuracy, recall and F1-score at 0.8097 0.8367 and 0.8216 respectively. Applying n-gram with the same summarization method, the accuracy, precision, and recall became 0.8119 0.8398 and 0.8242 with the 20% compression rate.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.