Chulalongkorn University Theses and Dissertations (Chula ETD)

การปรับปรุงอัลกอริทึมการจัดสรรงานสำหรับฮาดูปคลัสเตอร์แบบต่างชนิดโดยใช้หลักการควบคุมการแออัด

Other Title (Parallel Title in Other Language of ETD)

AN IMPOROVEMENT OF SCHEDULING ALGORITHM FOR HETEROGENEOUS HADOOP CLUSTER USING CONGESTION CONTROL CONCEPT

Year (A.D.)

2013

Document Type

Thesis

First Advisor

ณัฐวุฒิ หนูไพโรจน์

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2013.1049

Abstract

ฮาดูปเป็นโอเพนซอร์ซภายใต้การประมวลผลแบบเมพรีดิวที่ถูกใช้ในการประมวลผลข้อมูลขนาดใหญ่อย่างแพร่หลายโดยมีสมมติฐานที่อยู่บนหลักการพื้นฐานของคลัสเตอร์แบบเอกพันธุ์ แต่ปัจจุบันการขยายคลัสเตอร์โดยการใช้เทคโนโลยีคลาวด์ได้รับความนิยมทำให้คลัสเตอร์มีลักษณะแบบต่างชนิด ประกอบด้วยเครื่องที่หลากหลายทำให้การทำงานของฮาดูปบนคลัสเตอร์เหล่านี้ ไม่มีประสิทธิภาพที่ดีเท่าที่ควร งานวิจัยนี้จึงได้นำเสนอแนวทางการแก้ปัญหาด้วยอัลกอริทึมการแจกงานเมื่อคลัสเตอร์เป็นแบบต่างชนิด ซึ่งอัลกอริทึมที่นำเสนอ จะพิจารณาถึงประสิทธิภาพความเร็วของอุปกรณ์และการประมวลผล รวมไปถึงคุณสมบัติของงานที่เข้าสู่ระบบเพื่อการประมวลผล มาใช้เป็นพื้นฐานในการแจกงานโดยอ้างอิงหลักการการควบคุมการแออัดในระบบเครือข่าย เพื่อให้เกิดประสิทธิภาพสูงสุดในการแจกงาน

Other Abstract (Other language abstract of ETD)

Hadoop is the opensource software based on MapReduce Algorithm, which is widely used to support big data processing. Hadoop’s effectiveness is based on its assumption of using homogeneous cluster. However, cluster expansion based on cloud technology is quite popular recently. Thus, these clusters become heterogeneous with various types of machines. This causes Hadoop to become ineffective when running on these clusters. To solve this problem, this research proposes a Hadoop’s workload distribution algorithm on heterogeneous cluster. Our proposed algorithm considers the performance of I/O and processing capability, as well as, the nature of submitted jobs as basis for workload distribution based on the concept of network congestion control to maximize the efficiency of running Hadoop jobs on heterogeneous cluster.

Share

COinS