Chulalongkorn University Theses and Dissertations (Chula ETD)

การลำเอียงด้วยความใกล้ชิดด้านเวลาในการคำนวณเพจแร็งค์ส่วนบุคคล

Other Title (Parallel Title in Other Language of ETD)

Time-Proximity Biasing in Personalized PageRank Computation

Year (A.D.)

2012

Document Type

Thesis

First Advisor

อรรถสิทธิ์ สุรฤกษ์

Second Advisor

บัณฑิต มนัสเกษมศักดิ์

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2012.1084

Abstract

ปัจจุบันการวิเคราะห์ฐานข้อมูลเว็บที่จัดเก็บมาได้เพียงชุดเดียวเริ่มไม่มีประสิทธิภาพที่เพียงพอสำหรับการจัดการเครื่องมือสืบค้นเพื่อให้ได้ผลลัพธ์ค้นคืนที่เหมาะสม โดยเฉพาะอย่างยิ่งในกระบวนการจัดเรียงลำดับเว็บ ซึ่งโดยลักษณะการเปลี่ยนแปลงของเว็บนั้น ทำให้อัลกอริทึมจัดเรียงลำดับที่อิงตามเส้นเชื่อมโยงแบบดั้งเดิมจำนวนมากมักให้ความสำคัญกับเว็บเพจเก่ามากจนเกินไป อีกทั้งยังไม่อาจรับรู้ถึงความสำคัญของเว็บเพจใหม่ เนื่องจากเว็บเพจเก่าย่อมมีเวลาสั่งสมจำนวนเส้นเชื่อมโยงเข้าหาหรือถูกอ้างอิงมากกว่าเว็บเพจใหม่นั่นเอง วิทยานิพนธ์ฉบับนี้นำเสนอวิธีการจัดเรียงลำดับเว็บส่วนบุคคล ที่อิงตามเส้นเชื่อมโยงร่วมกับข้อมูลเชิงเวลา ที่สกัดจากประวัติความเคลื่อนไหวของเว็บเพจ แบบจำลองความใกล้ชิดด้านเวลา ด้วยฟังก์ชันเคอเนลที่แตกต่างกัน ถูกนำเสนอเพื่อประเมินความเกี่ยวข้องกันระหว่างเว็บเพจ ซึ่งจะถูกนำไปใช้ในกระบวนถ่ายทอดย้อนกลับ สำหรับในการคำนวณค่าคะแนนความลำเอียงด้านเวลาของเว็บเพจ ในท้ายที่สุด ค่าคะแนนดังกล่าวจะถูกกำหนดเป็นเวกเตอร์ความลำเอียง ในการคำนวณเพจแร็งค์ส่วนบุคคล จากการทดลองบนฐานข้อมูลเว็บจริงที่ได้จากอินเตอร์เน็ตอาร์ไคว์ฟ แสดงให้เห็นว่าแนวคิดของวิทยานิพนธ์ฉบับนี้ได้เพิ่มประสิทธิภาพการจัดเรียงลำดับผลลัพธ์ค้นคืนของเพจแร็งค์ได้ดียิ่งขึ้น เมื่อพิจารณาตามความพึงพอใจของผู้ใช้งาน

Other Abstract (Other language abstract of ETD)

Today, an analysis on only a single crawled snapshot of World Wide Web becomes not efficient enough for a search engine administration, especially a web ranking procedure, to provide appropriate search results. By the dynamic nature of the Web, many traditional link-based ranking algorithms, like PageRank, suffer from over granting stale pages an authority and also fail to recognize important new ones since the former have had much time to accumulate in-links (i.e., referrers) than the latter. In this Thesis, we propose a web personalized link-based ranking scheme that incorporates temporal information extracted from historical page activities. A time-proximity model based on several kernel functions is introduced to estimate page relatedness that is subsequently employed in inverse propagation for calculating temporal biased scores of web pages. These scores finally act as a bias vector used in personalized PageRank computation. Experiments conducted on a real-world web data collected from the Internet Archive show that our approach improves upon PageRank in ranking of search results with respect to human users' preference.

Share

COinS