Chulalongkorn University Theses and Dissertations (Chula ETD)

สถาปัตยกรรมแบบผสมสำหรับการประมวลผลบันทึกของระบบงานขนาดใหญ่

Other Title (Parallel Title in Other Language of ETD)

Hybrid architecture for large scale log processing

Year (A.D.)

2015

Document Type

Thesis

First Advisor

ณัฐวุฒิ หนูไพโรจน์

Second Advisor

เกริก ภิรมย์โสภา

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2015.1303

Abstract

การประมวลผลบันทึกของระบบงานขนาดใหญ่ที่มาจากหลายๆ เครื่องแม่ข่ายจะพบว่า บันทึกของระบบงานของแต่ละเครื่องแม่ข่ายนั้นมีขนาดใหญ่ ถูกส่งมาตลอดเวลา และมีรูปแบบที่แตกต่างกัน ซึ่งทำให้การประมวลผลข้อมูลของบันทึกของระบบงานเหล่านี้ทำได้ยากยิ่ง ตัวอย่างเช่น การตรวจจับความผิดปรกติของระบบเป็นระบบที่จะต้องวิเคราะห์ข้อมูลล่าสุดร่วมกับข้อมูลในอดีต ถ้าหากเราต้องการความแม่นยำในการตรวจจับความผิดปรกติอย่างทันท่วงที เราจะต้องประมวลผลข้อมูลเหล่านี้ให้ได้ภายในระยะเวลาที่จำกัด เพื่อแก้ปัญหาเหล่านี้ งานวิจัยนี้นำเสนอ สถาปัตยกรรมแบบผสมสาหรับการประมวลผลบันทึกของระบบงานขนาดใหญ่โดยใช้ Apache Spark สำหรับทำการประมวลผลข้อมูล และ Apache Flume สำหรับการจัดการกับข้อมูล โดยใช้การตรวจจับความผิดปรกติโดยใช้แบบจำลองเวลาซาริมา มาทดสอบและประเมินระบบ ซึ่งสถาปัตยกรรมที่นำเสนอจะประมวลผลทั้งในรูปแบบ Batch และ Real-Time จากผลการทดสอบพบว่า การใช้สถาปัตยกรรมแบบผสมสำหรับการประมวลผลบันทึกของระบบงานขนาดใหญ่นั้น สามารถช่วยเพิ่มประสิทธิภาพในการทำงานกับบันทึกของระบบงานขนาดใหญ่ได้ดียิ่งขึ้น โดยสามารถประมวลผลข้อมูลที่มีขนาดใหญ่แล้วนำมาสร้างแบบจำลองที่มีความซับซ้อน เพื่อใช้ทำการตรวจจับความผิดปรกติอย่างมีประสิทธิภาพ ภายในระยะเวลาที่จำกัด

Other Abstract (Other language abstract of ETD)

Log processing can be very challenging, especially for environments with lots of servers. In these environments, log data is large, coming at high-speed, and have various formats, the classic case of big data problem. This makes big data log processing very difficult. For example, anomaly detection needs to process both latest data and historical data. To get good accuracy, large amount of data must be processed in real-time. To solve this problem, this research proposes a hybrid architecture for log anomaly detection using Apache Spark for data processing and Apache Flume for data collecting. To demonstrate the capabilities of our proposed solution, we implement a SARIMA-based anomaly detection as a case study. The experimental results clearly indicated that our proposed architecture can support log processing in large-scale environment effectively.

Share

COinS