Chulalongkorn University Theses and Dissertations (Chula ETD)

การนำการปรากฏร่วมกันของเทอมมาประยุกต์ในการการขยายข้อสอบถามแบบอัตโนมัติด้วยการจัดกลุ่มแบบลำดับชั้นในการค้นคืนสารสนเทศ

Other Title (Parallel Title in Other Language of ETD)

Applying Term Co-occurrence in Automatic Query Expansion with Hierarchical Clustering in Information Retrieval

Year (A.D.)

2013

Document Type

Thesis

First Advisor

อัษฎาพร ทรัพย์สมบูรณ์

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

การพัฒนาซอฟต์แวร์ด้านธุรกิจ

DOI

10.58837/CHULA.THE.2013.546

Abstract

วิทยานิพนธ์นี้เสนอการนำการขยายข้อสอบถามด้วยการจัดกลุ่มคำจากเอกสารในคอร์ปัสเอกสาร (Document Corpus) ด้วยขั้นตอนวิธีการจัดกลุ่มแบบลำดับชั้น มาประยุกต์ใช้กับระบบการค้นคืนสารสนเทศภาษาไทย โดยที่ผู้วิจัยจะต้องศึกษาเปรียบเทียบประสิทธิภาพการค้นคืนก่อนและหลังการนำขยายข้อสอบถามมาประยุกต์ด้วยค่าความแม่นยำที่สิบ ค่าความแม่นยำที่ยี่สิบ ค่าความแม่นยำที่สามสิบ และค่ามาตรวัดเอฟ ทั้งนี้ผู้วิจัยจะต้องสร้างชุดทดสอบสำหรับภาษาไทย นอกจากนี้แล้วผู้วิจัยจะต้องพัฒนาระบบการค้นคืนสารสนเทศและระบบการขยายข้อสอบถามด้วยการจัดกลุ่มคำด้วยเครื่องมือการค้นคืนสารสนเทศลูซีนและเครื่องมือการทำเหมืองข้อมูลเวกก้าผู้วิจัยได้นำบทคัดย่อของโครงงานชั้นปี 4 ที่จัดทำโดยนิสิตคณะพาณิชยศาสตร์และการบัญชี ภาควิชาสถิติ สาขาเทคโนโลยีสารสนเทศธุรกิจ ในช่วงปีการศึกษา 2552-2554 จำนวน 100 ฉบับ และนิสิตที่กำลังศึกษาชั้นปี 4 คณะพาณิชยศาสตร์และการบัญชี ภาควิชาสถิติ สาขาเทคโนโลยีสารสนเทศธุรกิจ ในปีการศึกษา 2555 จำนวน 25 คนเป็นผู้ประเมินความเกี่ยวข้องของเอกสารและข้อสอบถามในการสร้างชุดทดสอบสำหรับภาษาไทยจากการเปรียบประสิทธิภาพการค้นคืนด้วยค่าความแม่นยำที่สิบ ค่าความแม่นยำที่ยี่สิบ ค่าความแม่นยำที่สามสิบ และค่ามาตรวัดเอฟ สรุปได้ว่าการนำการขยายข้อสอบถามด้วยการจัดกลุ่มคำมาประยุกต์ใช้นั้น จะสามารถช่วยเพิ่มประสิทธิภาพการค้นคืน

Other Abstract (Other language abstract of ETD)

This thesis presents the application of query expansion using term clustering from hierarchical clustering, with information retrieval system for Thai language. The comparison of retrieval performance of before and after applying query expansion, with precision at 10 documents, precision at 20 documents, precision at 30 documents, and F-measure. In addition, an information retrieval system and a query expansion system is implemented using term clustering, with information retrieval toolkit, Lucene, and data mining toolkit, WekaThis research includes 100 abstracts of Senior projects in the Bachelor program in Information Technology for Business at the Faculty of Commerce and Accountancy, Department of Statistics in the academic year 2009-2011 25 4th year-Students in the academic year 2012 at the Faculty of Commerce and Accountancy, Department of Statistics provide test collection. A query and assess relevency of each document.With Retrieval performance : precision at 10 documents, precision at 20 documents, precision at 30 documents, and F-measure, it can be concluded that applying query expansion with term clustering leads to better retrieval performance.

Share

COinS