Chulalongkorn University Theses and Dissertations (Chula ETD)
การแยกเวบเพจภาษาไทยให้เป็นหมวดหมู่แบบอัตโนมัติ
Other Title (Parallel Title in Other Language of ETD)
Automatic Thai web page categorization
Year (A.D.)
2002
Document Type
Thesis
First Advisor
บุญเสริม กิจสิริกุล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2002.1242
Abstract
ในปัจจุบันนี้เอกสารหรือเวบเพจบนอินเตอร์เน็ตเพิ่มขึ้นอย่างรวดเร็ว ทำให้การค้นหาเอกสารที่ต้องการทำได้ยากมาก แต่ถ้ามีการจัดหมวดหมู่ให้กับเวบเพจก่อนแล้ว จะทำให้การค้นและเข้าถึงข้อมูลที่ต้องการทำได้ง่ายขึ้น วิทยานิพนธ์นี้ศึกษาวิธีการแยกหมวดหมู่ให้กับเวบเพจภาษาไทยแบบอัตโนมัติ เพื่อนำไปใช้ร่วมกับการค้นหาข้อมูลเวบเพจภาษาไทย โดยจะแบ่งขอบเขตของการศึกษาออกเป็น 3 ส่วน คือ (1) ศึกษาถึงความสำคัญของคำในแท็กเอชทีเอ็มแอลที่มีต่อความการแยกหมวดหมู่ให้ เอกสาร (2) การลดจำนวนของคำเพื่อเพิ่มประสิทธิภาพในการแยกหมวดหมู่ให้เอกสาร และ (3) วิธีการแยกหมวดหมู่ ผลการทดลองแสดงให้เห็นว่า (1) ถ้าเพิ่มความสำคัญให้กับคำที่อยู่ในแท็กเอชทีเอ็มแอลให้มากกว่าคำในเอกสาร การแยกหมวดหมู่ให้เวบเพจภาษาไทย จะมีความแม่นยำมากขึ้น (2) การลดจำนวนคำจะเพิ่มความถูกต้องเล็กน้อย และช่วยลดเวลาในการประมวลผล (3) เอสวีเอ็ม (SVM - Support Vector Machines) มีประสิทธิภาพดีกว่าตัวแยกแยะเบย์อย่างง่าย
Other Abstract (Other language abstract of ETD)
Nowadays the number of documents or Web pages in the Internet is increasing rapidly, and this makes searching of required documents is very difficult. If the Web pages are organized into categories, the user can more easily search and access the Web pages. This thesis studies a method of automatic Thai Web page categorization for applying to Thai search engines. The study is divided into three parts, i.e. (1) the study of significance of data in HTML tags in document categorization, (2) the method of reducing the number of words for efficient document categorization, and (3) the method of document categorization. The experimental results show that (1) if words in HTML tags are given higher significance than the other words in the documents, the categorization of Thai Web pages will be more accurate, (2) the reduction of the number of words gives slightly more accuracy and speeds up the processing time, and (3) an SVM performs better than Naive Bayes.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ตันธุวนิตย์, อดุลย์, "การแยกเวบเพจภาษาไทยให้เป็นหมวดหมู่แบบอัตโนมัติ" (2002). Chulalongkorn University Theses and Dissertations (Chula ETD). 64473.
https://digital.car.chula.ac.th/chulaetd/64473