Chulalongkorn University Theses and Dissertations (Chula ETD)

การตรวจจับลิงก์ฟาร์มโดยใช้การอนุมานไวยากรณ์กราฟ

Other Title (Parallel Title in Other Language of ETD)

Link farm detection using graph grammar inference

Year (A.D.)

2010

Document Type

Thesis

First Advisor

อรรถสิทธิ์ สุรฤกษ์

Second Advisor

อานนท์ รุ่งสว่าง

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2010.1396

Abstract

ลิงก์ฟาร์มคือกลุ่มของเว็บเพจที่ถูกสร้างขึ้น เพื่อเพิ่มคะแนนการจัดอันดับให้กับเว็บเพจเป้าหมาย ซึ่งจากการกระทำดังกล่าวทำให้หน้าเว็บเพจที่มีคะแนนการจัดอันดับถูกจัดอยู่ในลำดับต้นๆ ของผลการค้นคืนของระบบสืบค้น ดังนั้นงานวิจัยจำนวนหนึ่งได้ถูกคิดค้นขึ้นเพื่อตรวจจับลิงก์ฟาร์ม สำหรับในงานวิจัยนี้นำเสนอการอนุมานไวยากรณ์กราฟลิงก์ฟาร์ม จากข้อมูลโครงสร้างเว็บสแปมบนเว็บกราฟ ซึ่งในการอนุมานใช้การพิจารณารูปแบบลิงก์ที่อยู่รอบโฮสต์เป้าหมายด้วยอัลกอริทึมป้ายกำกับ โดยที่รูปแบบของลิงก์สามารถบ่งบอกถึง ลักษณะเฉพาะของโฮสต์สแปมที่แตกต่างไปจากโฮสต์ปกติ โดยผลลัพธ์ที่ได้จาการอนุมานคือ ไวยากรณ์จากโครงสร้างลิงก์ฟาร์ม และโครงสร้างที่แสดงถึงลักษณะเฉพาะของลิงก์ฟาร์ม จากการวัดประสิทธิภาพโดยเปรียบเทียบกับงานวิจัยที่เกี่ยวข้องพบว่า การตรวจจับลิงก์ฟาร์มโดยใช้การอนุมานไวยากรณ์กราฟ สามารถตรวจจับลิงก์ฟาร์มได้อย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งเว็บสแปมที่มีคะแนนการจัดอันดับสูง ซึ่งเป็นเป้าหมายหลักในการกำจัดออกจากระบบสืบค้น

Other Abstract (Other language abstract of ETD)

Link farm is a group of web pages created for the purpose of increasing the rank scores. Accordingly, the high-rank-score pages would appear in the top rank of the search engine results. Thus, many researchers are focusing on improving methods to detect the link farm (also called web spam). In this thesis, the link farm graph grammar inference approach is introduced to recognize the link farm structures from web graph datasets. The graph grammar inference considers the link pattern specified by the labeled algorithm around the target host to distinguish the spam hosts from normal hosts. The output of the proposed algorithm is a grammar which represents a specific form of link farm. From the experimental results comparing with related approaches, the grammar obtained from the proposed inference approach can efficiently recognize link farms with high precision especially on the high rank score spam hosts environment.

Share

COinS