Chulalongkorn University Theses and Dissertations (Chula ETD)

การพัฒนาการถ่ายโอนและสอบถามข้อมูลในรูปแบบอาร์ดีเอฟบนกรอบการทำงานฮาดูป

Other Title (Parallel Title in Other Language of ETD)

A DEVELOPMENT OF RDF DATA TRANSFER AND QUERY ON HADOOP FRAMEWORK

Year (A.D.)

2015

Document Type

Thesis

First Advisor

วิวัฒน์ วัฒนาวุฒิ

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมซอฟต์แวร์

DOI

10.58837/CHULA.THE.2015.1154

Abstract

ข้อมูลอาร์ดีเอฟที่ถูกเก็บไว้ในรูปแบบของเอ็กซ์เอ็มแอลหรือระบบฐานข้อมูลเชิงสัมพันธ์โดยในปัจจุบันเป็นที่นิยมนำมาประยุกต์ใช้ในการเก็บข้อมูลต่างๆ ที่มีขนาดใหญ่มากๆ อย่างไรก็ตามเมื่อข้อมูลมีแนวโน้มเพิ่มขึ้น ส่งผลให้เซตของข้อมูลมีขนาดใหญ่ขึ้นตามไปด้วย ดังนั้นทางเลือกในการจัดการข้อมูลและการค้นหาข้อมูลอาร์ดีเอฟ หรือข้อมูลที่มีความเชื่อมโยงกันที่เรียกว่าลิงค์เดต้าคือ การใช้อัลกอริทึมของแมปรีดิวซ์ บนกรอบการทำงานของฮาดูป วิทยานิพนธ์นี้จึงนำเสนอการดำเนินการถ่ายโอนข้อมูลและการค้นหาข้อมูลอาร์ดีเอฟจากฮาดูปคลัสเตอร์ เพื่อวัดประสิทธิภาพด้านเวลาในการเข้าถึงข้อมูลและค้นหาข้อมูลบนฮาดูป โดยข้อมูลอาร์ดีเอฟขนาดใหญ่ที่ใช้ในการทดลองจะถูกแปลงให้อยู่ในรูปของเอ็นทริปเปิ้ล และถูกถ่ายโอนเข้าไปยังฮาดูปคลัสเตอร์ซึ่งเป็นแหล่งเก็บข้อมูลของฮาดูปซึ่งอาศัยหลักการของเอชดีเอฟเอส ในการแบ่งข้อมูลขนาดใหญ่เพื่อจัดเก็บเข้าสู่ระบบ การค้นหาข้อมูลอาร์ดีเอฟในระบบโดยใช้สปาร์เคิล ซึ่งจะถูกแปลงให้อยู่ในรูปแบบของการสอบถามแบบเอ็นทริปเปิ้ล ที่เรียกว่า เบสิคกราฟแพทเทิร์น ด้วยจีน่าอัลจีบร้า เพื่อส่งเข้าไปประมวลผลในอัลกอริทึมของแมปรีดิวซ์ เพื่อให้ได้ผลลัพธ์สุดท้ายที่ตรงกับความต้องการของการค้นหาข้อมูล

Other Abstract (Other language abstract of ETD)

An RDF graph is typically stored in an XML file or a relational database. However, when it becomes a large RDF graph, an alternative way to handle the storing and query RDF graph or linked data is to use the MapReduce algorithm and Hadoop framework. In this thesis, we propose a supporting tool far data transfer and query on big RDF graph. We aim to reduce the access time and query response time by using Hadoop Framework. The RDF/XML or linked data are converted into a huge set of N-triples and they are uploaded onto Hadoop and stored in data nodes of Hadoop Distributed File System (HDFS). The query of RDF graph in SPARQL is analyzed and converted into a specific N-triple format as to search the answer using Jena Algebra. The MapReduce algorithm is developed to relevantly manipulate the RDF graph.

Share

COinS