Chulalongkorn University Theses and Dissertations (Chula ETD)
การตรวจจับเว็บสแปมโดยอาศัยการวิเคราะห์บูสเพจ
Other Title (Parallel Title in Other Language of ETD)
Web spam detection based on boosted page analysis
Year (A.D.)
2011
Document Type
Thesis
First Advisor
อรรถสิทธิ์ สุรฤกษ์
Second Advisor
อานนท์ รุ่งสว่าง
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมคอมพิวเตอร์
DOI
10.58837/CHULA.THE.2011.1598
Abstract
งานวิจัยในการตรวจจับเว็บสแปมโดยทั่วไปจะมีจุดมุ่งหมายหลักในการค้นหาลักษณะเฉพาะของเว็บที่เป็นเว็บสแปม เนื่องจากว่าเว็บสแปมคือเว็บที่ใช้วิธีการพิเศษในการทำให้เว็บเพจของตนเองได้ลำดับสูงกว่าที่ควร ซึ่งในการทำให้เว็บเพจของตนได้ลำดับสูงนั้นจะต้องทำให้ระบบสืบค้นมองเว็บเพจของตนเองว่าได้รับความนิยมสูง เว็บสแปมจะมีการสร้างเว็บเพจที่มีหน้าที่เพิ่มคะแนนความนิยมของตนเอง ซึ่งเว็บเพจเหล่านี้จะเรียกว่า บูสต์เพจ ดังนั้นจึงได้ทำการพัฒนาระบบการตรวจจับเว็บสแปมโดยเริ่มต้นจากวิเคราะห์และตรวจสอบเว็บเพจที่เป็นบูสเพจ แทนที่จะตรวจจับเว็บเพจที่เป็นเว็บสแปมโดยตรง โดยอาศัยลักษณะโครงสร้างความสัมพันธ์ระหว่างเว็บเพจที่เป็นบูสเพจกับเว็บเพจที่เป็นสแปมเป็นตัวชี้วัด แล้วหลังจากนั้นจึงนำเว็บเพจที่เป็นบูสเพจมาเป็นเครื่องมือช่วยหาเว็บเพจที่เป็นเว็บสแปม โดยดูจากโครงสร้างและความสัมพันธ์ระหว่างเว็บสแปมกับบูสต์เพจ และเพจสแปมกับเพจธรรมดา ผลการทดลองพบว่ามีประสิทธิภาพและความแม่นยำในการตรวจจับในระดับที่ดี เมื่อเปรียบเทียบกับงานวิจัยในการตรวจจับเว็บสแปมอื่น ผลลัพธ์จากการตรวจจับเว็บสแปมโดยการวิเคราะห์บูสเพจให้ผลเป็นที่น่าพอใจ
Other Abstract (Other language abstract of ETD)
Generally, research on web spam detection focus on determining characteristic of web spam pages. Since web spam technique is a technique which make target web pages have higher-than-deserve rank in search engine results, these technique must deceived search engine to make target pages look better than it should be. Web spammer try to make their target pages look popular by create many pages to increase popularity score. These pages are call boosted pages. So we introduced new web spam detection algorithm start from analyzing and detecting boosted pages instead of web spam pages. We use links and relationship between boosted pages and web spam pages to determine boosted pages. Then boosted pages will be used for detecting web spam pages by determining difference in relationship between boosted pages and normal pages and relationship between boosted pages and spam pages. Results show that this algorithm produced good accuracy in detecting web spam compared to other web spam detection research. Determining boosted pages can help improve web spam detection to have higher accuracy.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ลิขิตขจร, ชาคริต, "การตรวจจับเว็บสแปมโดยอาศัยการวิเคราะห์บูสเพจ" (2011). Chulalongkorn University Theses and Dissertations (Chula ETD). 68685.
https://digital.car.chula.ac.th/chulaetd/68685