Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Extractive Text Summarization using Ontology and Graph-based Method

Year (A.D.)

2018

Document Type

Thesis

First Advisor

ดวงดาว วิชาดากุล

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2018.1137

Abstract

ในปัจจุบันผู้คนเริ่มหันมาดูแลสุขภาพร่างกายกันมากขึ้น บทความปริทัศน์ทางชีวการแพทย์ซึ่งเป็นบทความที่รวบรวมงานวิจัยและนำเสนอออกมาในอีกมุมมองหนึ่ง จึงกำลังเป็นที่สนใจ ทำให้มีผลงานทางวิชาการเผยแพร่ออกมาไม่เว้นแต่ละวัน เนื่องจากสุขภาพถือเป็นเรื่องใกล้ตัว กลุ่มผู้อ่านจึงมีทั้งผู้อ่านที่มีความรู้ในด้านนี้อยู่แล้วและผู้อ่านทั่วไปที่สนใจในการรักษาสุขภาพ งานวิจัยนี้จึงมีเป้าหมายที่จะพัฒนาระบบสรุปใจความสำคัญแบบอัตโนมัติจากบทความปริทัศน์ในด้านชีวการแพทย์ เพื่อช่วยลดเวลาที่ผู้อ่านใช้ในการทำความเข้าใจและรับสาระจากบทความเหล่านั้น เพื่อให้สามารถเข้าใจสิ่งที่ผู้เขียนบทความต้องการนำเสนอ โดยงานวิจัยนี้ใช้วิธีการทางกราฟร่วมกับออนโทโลยี UMLS (Unified Medical Language System) และใช้ค่าระยะห่างการเคลื่อนที่ของคำ (Word Mover's Distance : WMD) ซึ่งเป็นส่วนหนึ่งของกฏในการแทนบทความด้วยกราฟ และสังเคราะห์ประโยคสำคัญออกมาเป็นบทสรุปโดยวิธีการทางกราฟ งานวิจัยนี้ใช้บทความปริทัศน์ทางด้านชีวการแพทย์เกี่ยวกับโรคต่าง ๆ 5 โรค จำนวนโรคละ 400 บทความจากผับเมด (PubMed) ในการพัฒนาและทดสอบโมเดล ผลการทดลองมีค่าวัดประสิทธิภาพโดยเครื่องมือวัดผล ROUGE (Recall-Oriented Understudy for Gisting Evaluation) โมเดลที่นำเสนอมีความแม่นยำมากกว่าวิธีที่นำเสนอก่อนหน้าสูงสุดร้อยละ 22 นอกจากนี้ยังได้ทดสอบกับวิธีการทางกราฟต่าง ๆ คือ เพจแรงก์ (PageRank) ค่าความเป็นศูนย์กลาง (Degree Centrality) ค่าความใกล้ชิด (Closeness Centrality) และค่าคั่นกลาง (Betweenness Centrality) การทดลองพบว่าการใช้ค่าความใกล้ชิดสามารถสร้างบทสรุปที่มีความครอบคลุมและมีประสิทธิภาพมากที่สุด วิธีการที่นำเสนอนี้สามารถประยุกต์ใช้กับบทความในด้านอื่น ๆ ได้ตามออนโทโลยีที่เลือกใช้

Other Abstract (Other language abstract of ETD)

In recent years, many people started to take care of the physical health. The biomedical review article is the trendy issue at the moment leading to the huge amount of health information generated rapidly. In this research, we propose a new automatic extractive text summarization technique based on graph representation generated from the Unified Medical Language System (UMLS). We combined the graph building rules with a distance function between text documents, called Word Mover’s Distance. To prioritize the core sentences, we extracted the summary using various graph-based methods. We compared our results with other text summarization software using 5 datasets. Each dataset contains 400 biological review papers as a corpus randomly sampled from PubMed Central (PMC). Our approach outperformed up to 22 percent with the baseline comparators in terms of Recall-Oriented Understudy for Gisting Evaluation (ROUGE) scores. Furthermore, we compared various graph-based methods: PageRank, Degree Centrality, Closeness Centrality and Betweenness Centrality. The results showed that the Closeness Centrality got the best performance score for all experiments. This approach could be applied to other domains depending on selected ontology.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.