Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Extractive Text Summarization using Ontology and Graph-based Method
Year (A.D.)
2018
Document Type
Thesis
First Advisor
ดวงดาว วิชาดากุล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2018.1137
Abstract
ในปัจจุบันผู้คนเริ่มหันมาดูแลสุขภาพร่างกายกันมากขึ้น บทความปริทัศน์ทางชีวการแพทย์ซึ่งเป็นบทความที่รวบรวมงานวิจัยและนำเสนอออกมาในอีกมุมมองหนึ่ง จึงกำลังเป็นที่สนใจ ทำให้มีผลงานทางวิชาการเผยแพร่ออกมาไม่เว้นแต่ละวัน เนื่องจากสุขภาพถือเป็นเรื่องใกล้ตัว กลุ่มผู้อ่านจึงมีทั้งผู้อ่านที่มีความรู้ในด้านนี้อยู่แล้วและผู้อ่านทั่วไปที่สนใจในการรักษาสุขภาพ งานวิจัยนี้จึงมีเป้าหมายที่จะพัฒนาระบบสรุปใจความสำคัญแบบอัตโนมัติจากบทความปริทัศน์ในด้านชีวการแพทย์ เพื่อช่วยลดเวลาที่ผู้อ่านใช้ในการทำความเข้าใจและรับสาระจากบทความเหล่านั้น เพื่อให้สามารถเข้าใจสิ่งที่ผู้เขียนบทความต้องการนำเสนอ โดยงานวิจัยนี้ใช้วิธีการทางกราฟร่วมกับออนโทโลยี UMLS (Unified Medical Language System) และใช้ค่าระยะห่างการเคลื่อนที่ของคำ (Word Mover's Distance : WMD) ซึ่งเป็นส่วนหนึ่งของกฏในการแทนบทความด้วยกราฟ และสังเคราะห์ประโยคสำคัญออกมาเป็นบทสรุปโดยวิธีการทางกราฟ งานวิจัยนี้ใช้บทความปริทัศน์ทางด้านชีวการแพทย์เกี่ยวกับโรคต่าง ๆ 5 โรค จำนวนโรคละ 400 บทความจากผับเมด (PubMed) ในการพัฒนาและทดสอบโมเดล ผลการทดลองมีค่าวัดประสิทธิภาพโดยเครื่องมือวัดผล ROUGE (Recall-Oriented Understudy for Gisting Evaluation) โมเดลที่นำเสนอมีความแม่นยำมากกว่าวิธีที่นำเสนอก่อนหน้าสูงสุดร้อยละ 22 นอกจากนี้ยังได้ทดสอบกับวิธีการทางกราฟต่าง ๆ คือ เพจแรงก์ (PageRank) ค่าความเป็นศูนย์กลาง (Degree Centrality) ค่าความใกล้ชิด (Closeness Centrality) และค่าคั่นกลาง (Betweenness Centrality) การทดลองพบว่าการใช้ค่าความใกล้ชิดสามารถสร้างบทสรุปที่มีความครอบคลุมและมีประสิทธิภาพมากที่สุด วิธีการที่นำเสนอนี้สามารถประยุกต์ใช้กับบทความในด้านอื่น ๆ ได้ตามออนโทโลยีที่เลือกใช้
Other Abstract (Other language abstract of ETD)
In recent years, many people started to take care of the physical health. The biomedical review article is the trendy issue at the moment leading to the huge amount of health information generated rapidly. In this research, we propose a new automatic extractive text summarization technique based on graph representation generated from the Unified Medical Language System (UMLS). We combined the graph building rules with a distance function between text documents, called Word Movers Distance. To prioritize the core sentences, we extracted the summary using various graph-based methods. We compared our results with other text summarization software using 5 datasets. Each dataset contains 400 biological review papers as a corpus randomly sampled from PubMed Central (PMC). Our approach outperformed up to 22 percent with the baseline comparators in terms of Recall-Oriented Understudy for Gisting Evaluation (ROUGE) scores. Furthermore, we compared various graph-based methods: PageRank, Degree Centrality, Closeness Centrality and Betweenness Centrality. The results showed that the Closeness Centrality got the best performance score for all experiments. This approach could be applied to other domains depending on selected ontology.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ยงเกียรติพานิช, ชุลีพร, "การสรุปใจความสำคัญแบบสกัดจากบทความโดยใช้ออนโทโลยีและวิธีการทางกราฟ" (2018). Chulalongkorn University Theses and Dissertations (Chula ETD). 3268.
https://digital.car.chula.ac.th/chulaetd/3268