Chulalongkorn University Theses and Dissertations (Chula ETD)

การปรับปรุงประสิทธิภาพของการตรวจจับสิ่งผิดปกติสำหรับการวิเคราะห์ปูมแบบปรับขนาดได้

Other Title (Parallel Title in Other Language of ETD)

PERFORMANCE IMPROVEMENT OF ANOMALY DETECTION FOR SCALABLE LOG ANALYSIS

Year (A.D.)

2014

Document Type

Thesis

First Advisor

เกริก ภิรมย์โสภา

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2014.1287

Abstract

ในงานวิจัยนี้ผู้วิจัยได้นำเสนอวิธีการปรับปรุงประสิทธิภาพในการวิเคราะห์สิ่งผิดปกติในปูมขนาดใหญ่ เพื่อให้มีความสามารถในการตรวจสอบการบุกรุกระบบแบบไม่มีการชี้นำ งานวิจัยนี้เป็นการประยุกต์ใช้ ความสามารถของวิธีการตรวจจับข้อมูลแปลกแยกที่เรียกว่า Kolmogorov-Smirnov and Efron Outlier Detection algorithm (KSE-test) และ การจัดกลุ่มข้อมูลด้วย K-Means algorithm ซึ่งทั้งสองวิธีนี้มีความซับซ้อนทางเวลาเป็นแบบเชิงเส้น เพื่อให้สามารถประมวลผลการตรวจจับข้อมูลแปลกแยกในปูมขนาดใหญ่ได้อย่างรวดเร็ว และ ยังคงประสิทธิภาพของผลลัพธ์ที่ดี คือมีอัตราการตรวจพบข้อมูลแปลกแยกสูง และ อัตราการจำแนกผิดพลาดต่ำ ในการตรวจสอบความถูกต้อง ข้อมูลจาก KDD’99 ได้ถูกนำมาใช้ในการทดสอบ เพื่อหาค่า Threshold และ ประมาณค่า K ที่เหมาะสม สำหรับวิธีการที่นำเสนอ ผลที่ได้มีความเที่ยงตรงในการตรวจสอบการบุกรุกข้อมูลระบบมากขึ้น และ ความผิดพลาดน้อยลง กว่าการจำแนกโดยใช้วิธี KSE-test เพียงอย่างเดียว ในขณะที่ยังคงประสิทธิภาพเชิงเวลาเป็นเชิงเส้น นอกจากนี้ ผู้วิจัยยังได้แสดงการทดสอบประสิทธิภาพของงานที่นำเสนอว่าความสามารถขยายระบบ ด้วยวิธีการประมวลผลแบบขนาน บนแพลตฟอร์ม Apache Spark ทำให้สามารถลดระยะเวลาในการประมวลผลได้โดยการเพิ่มจำนวนเครื่องที่ใช้ในการประมวลผล

Other Abstract (Other language abstract of ETD)

We proposed a scalable outlier detection method to identify outliers in large datasets with a goal to create unsupervised intrusion detection. In our work, the strength of Kolmogorov-Smirnov and Efron Outlier Detection algorithm (KSE-test) and K-means clustering algorithm, both with linear time complexity, are combined to create fast outlier detection. While still maintaining high detection rate and low false alarm rate, our method can easily be paralleled for processing a large data set. The result is then applied with a predefined threshold in order to create efficient intrusion detection. We validate our method using the KDD’99 dataset. With the appropriate values of threshold and value of K in our proposed method, the results yield higher detection rate and lower false alarm rate. While scaling linearly, the accuracy of our method is also improved from those of pure KSE-test-based methods. Moreover, we propose a proof-of-concept parallel version of our proposed method that works on Apache Spark platform, which greatly reduces execution time and easily scales up by adding more machines to the cluster.

Share

COinS