Chulalongkorn University Theses and Dissertations (Chula ETD)
ระบบค้นคืนสารสนเทศแบบจัดลำดับและแบบค้นคืนย้อนกลับบนโครงสร้างแถวลำดับแพ็ต
Other Title (Parallel Title in Other Language of ETD)
An information retrieval system using ranking and relevance feedback on the PAT array
Year (A.D.)
1998
Document Type
Thesis
First Advisor
จารุมาตร ปีนทอง
Second Advisor
ธาราทิพย์ สุวรรณศาสตร
Faculty/College
Graduate School (บัณฑิตวิทยาลัย)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.1998.720
Abstract
วิทยานิพนธ์นี้เสนอการพัฒนาระบบค้นคืนสารสนเทศในรูปแบบเอกสารที่เป็นข้อความด้วยวิธีค้นคืนแบบจัดลำดับและแบบค้นคืนย้อนกลับโดยใช้แถวลำดับแพ็ตเป็นดัชนีเพื่อใช้ในการค้นคืน แถวลำดับแพ็ต เป็นโครงสร้างที่เหมาะกับข้อความภาษาไทยที่การแบ่งคำยังไม่ถูกต้องสมบูรณ์ แถวลำดับแพ็ตจัดเก็บดัชนีในรูปของสายอักขระแบบกึ่งอนันต์ที่เรียกว่าซิสตริง การพัฒนาโปรแกรมค้นคืนแบ่งออกเป็น 3 ส่วนคือ ส่วนของการสร้างดัชนีของน้ำหนักคำ ส่วนของการจัดลำดับผลการค้นคืน และส่วนของการค้นคืนย้อนกลับ สำหรับส่วนของการสร้างดัชนีของน้ำหนักคำ จะเก็บค่าตัวชี้ตำแหน่งซิสตริงที่ไม่ซ้ำกันและค่าความถี่ของแต่ละซิสตริงในเอกสารทั้งหมดไว้ในแถวลำดับแพ็ตเพื่อลดขั้นตอนการประมวลผลในช่วงค้นคืน การค้นคืนจะเปรียบเทียบคิวรีที่ผู้ใช้ป้อน กับคำที่ได้จากซิสตริงซึ่งเป็นคำที่ถูกต้องตามหลักภาษาศาสตร์สำหรับส่วนของการจัดลำดับผลการค้นคืนนั้น เมื่อได้ผลลัพธ์การค้นคืน จะนำผลลัพธ์นั้นมาคำนวณหาค่าตามสูตรคำนวณน้ำหนักคำ เพื่อให้ได้ค่าน้ำหนักคำรวมของแต่ละเอกสาร แล้วนำผลน้ำหนักคำที่ได้มาทำการจัดลำดับตามค่าน้ำหนักคำ และส่วนของการค้นคืนย้อนกลับจะนำ เอกสารที่ผู้ใช้แสดงว่าเอกสารนั้นตรงตามต้องการมาใช้สร้างคำใหม่ เพื่อให้ผู้ใช้นำคำใหม่นี้ไปใช้ค้นคืนซ้ำอีกครั้ง เพื่อให้ผลการค้นคืนใหม่มีค่าความถูกต้องสูงขึ้นกว่าเดิม ในการวิจัยนี้ได้เลือกสูตรคำนวณน้ำหนักคำมาทั้งหมด 5 สูตร และจากผลการทดลองการค้นคืน แบบจัดลำดับโดยใช้สูตรคำนวณน้ำหนักคำ 5 สูตร พบว่ามี 2 สูตรที่ให้ผลเฉลี่ยค่าความถูกต้องสูงสุดคือ สูตรคำนวณน้ำหนักคำที่ประกอบไปด้วยค่าความถี่ของคำที่ปรากฎในเอกสาร และสูตรคำนวณน้ำหนักคำที่ ประกอบไปด้วยค่าความถี่ของคำที่ปรากฎในเอกสารคูณกับค่าความถี่เอกสารแบบผกผัน ส่วนผลการทดลอง การค้นคืนแบบค้นคืนย้อนกลับ พบว่าการเลือกใช้คำที่มีค่าความถี่คำอยู่ในช่วงขีดจำกัดที่เหมาะสม ช่วยให้ระบบเสนอคิวรีใหม่ที่ช่วยให้ผลการค้นคืนมีผลเฉลี่ยค่าความถูกต้องสูงขึ้นกว่าเดิมได้
Other Abstract (Other language abstract of ETD)
This thesis presents a development of information retrieval system using ranking and relevance feedback on PAT arrays which are used as index for retrieval. A PAT array is a structure that fits for Thai text which Thai text which is not completely segmented. PAT arrays store index in semi-infinite strings (sistrings). The development consists of 3 subsystems: the index term weights creation subsystem, the ranking subsystem, and the relevance feedback subsystem. The index term weights creation subsystem stores unique sistrings and frequency of each sistring from all documents in a PAT array in order to decrease retrieval time. The retrieval compares between user’s query and words from sistrings which follow the linguistics rules. After getting the retrieval results, the ranking subsystem calculates term weights for each document, and sort the documents in descending order using the term weights as a key. The relevance feedback subsystem allows the user to select relevant documents, and enter new query in order to improve the results. This research experienced five term weight formulas. The experiments showed that there are two formulas that give the best results. One of the two formulas consists of term frequency in its formula and the other consists of term frequency multiplied by inverse document frequency. For the relevance feedback, the experiments showed that choosing the appropriate threshold help the system promote new queries that help improve better results.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
จงเจริญใจ, มานพ, "ระบบค้นคืนสารสนเทศแบบจัดลำดับและแบบค้นคืนย้อนกลับบนโครงสร้างแถวลำดับแพ็ต" (1998). Chulalongkorn University Theses and Dissertations (Chula ETD). 21456.
https://digital.car.chula.ac.th/chulaetd/21456
ISBN
9743317805