Chulalongkorn University Theses and Dissertations (Chula ETD)

การตรวจจับเว็บสแปมโดยอาศัยการวิเคราะห์บูสเพจ

Other Title (Parallel Title in Other Language of ETD)

Web spam detection based on boosted page analysis

Year (A.D.)

2011

Document Type

Thesis

First Advisor

อรรถสิทธิ์ สุรฤกษ์

Second Advisor

อานนท์ รุ่งสว่าง

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2011.1598

Abstract

งานวิจัยในการตรวจจับเว็บสแปมโดยทั่วไปจะมีจุดมุ่งหมายหลักในการค้นหาลักษณะเฉพาะของเว็บที่เป็นเว็บสแปม เนื่องจากว่าเว็บสแปมคือเว็บที่ใช้วิธีการพิเศษในการทำให้เว็บเพจของตนเองได้ลำดับสูงกว่าที่ควร ซึ่งในการทำให้เว็บเพจของตนได้ลำดับสูงนั้นจะต้องทำให้ระบบสืบค้นมองเว็บเพจของตนเองว่าได้รับความนิยมสูง เว็บสแปมจะมีการสร้างเว็บเพจที่มีหน้าที่เพิ่มคะแนนความนิยมของตนเอง ซึ่งเว็บเพจเหล่านี้จะเรียกว่า บูสต์เพจ ดังนั้นจึงได้ทำการพัฒนาระบบการตรวจจับเว็บสแปมโดยเริ่มต้นจากวิเคราะห์และตรวจสอบเว็บเพจที่เป็นบูสเพจ แทนที่จะตรวจจับเว็บเพจที่เป็นเว็บสแปมโดยตรง โดยอาศัยลักษณะโครงสร้างความสัมพันธ์ระหว่างเว็บเพจที่เป็นบูสเพจกับเว็บเพจที่เป็นสแปมเป็นตัวชี้วัด แล้วหลังจากนั้นจึงนำเว็บเพจที่เป็นบูสเพจมาเป็นเครื่องมือช่วยหาเว็บเพจที่เป็นเว็บสแปม โดยดูจากโครงสร้างและความสัมพันธ์ระหว่างเว็บสแปมกับบูสต์เพจ และเพจสแปมกับเพจธรรมดา ผลการทดลองพบว่ามีประสิทธิภาพและความแม่นยำในการตรวจจับในระดับที่ดี เมื่อเปรียบเทียบกับงานวิจัยในการตรวจจับเว็บสแปมอื่น ผลลัพธ์จากการตรวจจับเว็บสแปมโดยการวิเคราะห์บูสเพจให้ผลเป็นที่น่าพอใจ

Other Abstract (Other language abstract of ETD)

Generally, research on web spam detection focus on determining characteristic of web spam pages. Since web spam technique is a technique which make target web pages have higher-than-deserve rank in search engine results, these technique must deceived search engine to make target pages look better than it should be. Web spammer try to make their target pages look popular by create many pages to increase popularity score. These pages are call boosted pages. So we introduced new web spam detection algorithm start from analyzing and detecting boosted pages instead of web spam pages. We use links and relationship between boosted pages and web spam pages to determine boosted pages. Then boosted pages will be used for detecting web spam pages by determining difference in relationship between boosted pages and normal pages and relationship between boosted pages and spam pages. Results show that this algorithm produced good accuracy in detecting web spam compared to other web spam detection research. Determining boosted pages can help improve web spam detection to have higher accuracy.

Share

COinS