Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Metric development for abstractive text summarization evaluationbased on lexical and semantic analysis

Year (A.D.)

2024

Document Type

Thesis

First Advisor

โปรดปราน บุณยพุกกณะ

Second Advisor

อติวงศ์ สุชาโต

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมซอฟต์แวร์

DOI

10.58837/CHULA.THE.2024.1042

Abstract

การประเมินผลการสรุปข้อความยังคงเป็นเรื่องท้าทาย เนื่องจากตัววัดแบบดั้งเดิม เช่น ROUGE และ BLEU มุ่งเน้นไปที่ความเหมือนกันของคำ ซึ่งมักจะไม่สามารถจับความหมายเชิงลึกและความสอดคล้องของเนื้อหาได้อย่างครบถ้วน งานวิจัยนี้นำเสนอ CorefSemScore ซึ่งเป็นตัววัดเชิงประเมินแบบผสมผสานที่รวมการวิเคราะห์ การแก้ไขการอ้างอิงร่วม เข้ากับการประเมินความคล้ายคลึงกันเชิงความหมาย โดยผสานการใช้ ROUGE, BERTScore, และ Sentence-BERT เพื่อการประเมินที่ครอบคลุมมากขึ้น CorefSemScore ใช้วิธีการเฉลี่ยแบบถ่วงน้ำหนักเพื่อผสานองค์ประกอบการประเมินในหลากหลายมิติ โดยเน้นความสมดุลระหว่างการประเมินความคล้ายคลึงกันเชิงคำศัพท์และความคล้ายคลึงกันเชิงความหมาย ส่งผลให้สามารถประเมินการสรุปข้อความแบบแอบสแทร็กต์ทิฟได้อย่างครอบคลุม ผลการทดลองบนชุดข้อมูล SummEval แสดงให้เห็นว่า CorefSemScore มีประสิทธิผลเหนือกว่าทั้งตัววัดแบบความคล้ายคลึงกันเชิงคำศัพท์ เช่น ROUGE และ BLEU รวมถึงตัววัดความคล้ายคลึงกันเชิงความหมาย เช่น BERTScore โดยเฉพาะในด้านการสะท้อนความเชื่อมโยงของเนื้อหา ซึ่งสะท้อนถึงศักยภาพของตัววัดในการยกระดับความน่าเชื่อถือของการประเมินผลการสรุปข้อความแบบแอบสแทร็กต์ทิฟ

Other Abstract (Other language abstract of ETD)

Evaluating abstractive text summarization remains a challenging task, as traditional metrics such as ROUGE and BLEU primarily rely on lexical overlap, which often fails to capture semantic meaning and content coherence. This research proposes CorefSemScore, a hybrid evaluation metric that incorporates coreference resolution and semantic similarity to provide a more comprehensive assessment. CorefSemScore integrates ROUGE, BERTScore, and Sentence-BERT, using a weighted averaging approach to balance lexical and semantic dimensions effectively. Experimental results on the SummEval dataset suggest that CorefSemScore offers improved alignment with human judgments compared to lexical-based metrics (e.g., ROUGE, BLEU) and semantic-based metrics (e.g., BERTScore), especially in aspects related to coherence. These findings highlight the metric’s potential as a complementary tool for enhancing the reliability of automatic summarization evaluation.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.