Chulalongkorn University Theses and Dissertations (Chula ETD)
กรอบงานสารสนเทศควบรวมสำหรับการค้นคืนเอกสารมีโครงสร้างในองค์กร
Other Title (Parallel Title in Other Language of ETD)
COLLABORATIVE INFORMATION FRAMEWORK FOR STRUCTURED DOCUMENT RETRIEVAL IN ORGANIZATION
Year (A.D.)
2013
Document Type
Thesis
First Advisor
ญาใจ ลิ่มปิยะกรณ์
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2013.1045
Abstract
การค้นหากลุ่มเอกสารที่มีลักษณะสัมพันธ์กันของบริบทเป็นสิ่งที่ท้าทาย เนื่องจากเป็นการยากที่จะประเมินได้ว่าเอกสารที่ได้มานั้นมีเนื้อหาที่ถูกต้อง เหมาะสมและตรงตามความต้องการของผู้ใช้ งานวิจัยนี้จึงได้นำเสนอกรอบงานสารสนเทศควบรวม เพื่อรวบรวมสาระสำคัญที่น่าสนใจและเหมาะสมจากเอกสารที่ได้จากการค้นคืน ซึ่งเป็นเอกสารมีโครงสร้างในรูปแบบเอกซ์เอ็มแอล แนวทางที่นำเสนอประกอบด้วย 2 ส่วนหลัก คือ ส่วนการค้นคืนสารสนเทศจากเอกสาร และส่วนการนำเสนอสารสนเทศ โดยส่วนการค้นคืนสารสนเทศจากเอกสารมีโครงสร้าง ทำหน้าที่แยกส่วน รวบรวมและพิจารณาบริบทในเอกสารเพื่อสกัดสาระสำคัญที่เหมาะสมและตรงตามความต้องการของผู้ใช้งานด้วยเทคนิคการสืบค้นข้อมูลเอกซ์เอ็มแอล ซึ่งใช้ภาษาเอกซ์คิวรีและวิธีการแท็กข้อมูลด้วยคำศัพท์ควบคุมที่ประกอบด้วยคำสำคัญและคำที่มีความหมายใกล้เคียง เพื่อจัดทำเป็นดัชนีด้วยภาษาเอกซ์พาธ ชุดข้อมูลผลลัพธ์จากการสืบค้นจะถูกนำมาหาความสัมพันธ์ของบริบทด้วยเทคนิควิธีการจัดกลุ่มโดยใช้อัลกอริทึมเค-มีนส์ และตัววัดทีเอฟ-ไอดีเอฟ เพื่อบอกความเกี่ยวข้องของเอกสารผลลัพธ์จากการค้นคืน ต่อจากนั้น ส่วนการนำเสนอสารสนเทศจะทำการเรียงลำดับและจัดรูปแบบสารสนเทศตามที่กำหนดไว้ก่อนหน้าด้วยภาษาเอกซ์เอสแอลทีเพื่อแปลงข้อมูลเอกซ์เอ็มแอลเป็นเอชทีเอ็มแอล ผลลัพธ์การค้นคืนสารสนเทศจากการทดลองในงานวิจัยนี้ถูกประเมินด้วยค่าพรีซิชัน รีคอล และค่าเอฟ ได้ค่าเฉลี่ยที่ 83% 84% และ 83% ตามลำดับ ซึ่งอยู่ในระดับดีปานกลาง
Other Abstract (Other language abstract of ETD)
Searching for a cluster of documents with context relevance is challenging as it is difficult to assess whether those documents contain relevant contents and satisfy the user needs. This research therefore presents a Collaborative Information Framework for retrieving the proper and interesting contents from the structured documents in XML format. The proposed approach consists of two main components, which are the part of document information retrieval, and the part of information presentation. The document information retrieval component is in charge of document decomposition, and collection of the proper contexts satisfying user needs with the XML searching technique. The XQuery language and the method of index tagging by XPath language using controlled vocabularies composed of keywords and synonyms. The set of documents resulting from searching will then be clustered by k-Means algorithm, and the measure of TF-IDF for examining the context relevance. Next, the information presentation component will re-order and re-format the obtained information based on the predefined templates using XSLT language to transform XML data to HTML. The results of information retrieval from the experiment in this study, evaluated with the values of Precision, Recall, and F-measure, yield the averages of 83%, 84%, and 83 %, respectively that can be rated moderate.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ศรีหาจักษ์, นัทธี, "กรอบงานสารสนเทศควบรวมสำหรับการค้นคืนเอกสารมีโครงสร้างในองค์กร" (2013). Chulalongkorn University Theses and Dissertations (Chula ETD). 69375.
https://digital.car.chula.ac.th/chulaetd/69375