Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

ปัจจัยความผิดปกติบนพื้นฐานสัดส่วนมวลผลรวมนูนของค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยและพิสัยระหว่างควอร์ไทล์ สำหรับการให้คะแนนความผิดปกติ

Year (A.D.)

2024

Document Type

Thesis

First Advisor

Arthorn Luangsodsai

Second Advisor

Krung Sinapiromsaran

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Department (if any)

Department of Mathematics and Computer Science (ภาควิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์)

Degree Name

Master of Science

Degree Level

Master's Degree

Degree Discipline

Computer Science and Information Technology

DOI

10.58837/CHULA.THE.2024.305

Abstract

Anomaly detection is increasingly essential across various sectors, including fraud detection, cybersecurity, and industrial process monitoring, where it serves as an early warning system to identify unusual patterns in data. This research presents a novel, parameter-free anomaly scoring algorithm designed to assign scores to data points without the need for user-defined parameters. The algorithm calculates anomaly scores based on the statistical dispersion of the mass-ratio distribution, utilizing five key measures: variance, range, interquartile range (IQR), average absolute deviation (AAD), and the combination of AAD and IQR. The performance of the proposed Mass-Ratio-Convex-Combination-Of-Average-Absoulte-Deviation-And-Interquartile-Range Based Outlier Factor for anomaly scoring algorithm called MAIOF is benchmarked against three established methods: the k-nearest neighbor algorithm, the local outlier factor algorithm, and the mass-ratio variance outlier factor algorithm. Among 22 UCI datasets, the MAIOF algorithm demonstrates superior performance. Additionally, the implementation of the one-loop method for distance calculations enhances the algorithm's scalability, allowing it to efficiently process larger datasets.

Other Abstract (Other language abstract of ETD)

การตรวจจับความผิดปกติมีความสําคัญเพิ่มขึ้นอย่างต่อเนื่องในหลายภาคส่วน ตั้งแต่การตรวจจับการฉ้อโกง ความปลอดภัยทางไซเบอร์ และการตรวจสอบกระบวนผลิตในอุตสาหกรรม โดยทําหน้าที่เป็นระบบเตือนภัยล่วงหน้าเพื่อระบุรูปแบบที่ผิดปกติในข้อมูล งานวิจัยนี้นําเสนอขั้นตอนวิธีการให้คะแนนความผิดปกติแบบใหม่ที่ไร้พารามิเตอร์ ออกแบบมาเพื่อกําหนดคะแนนให้กับจุดข้อมูลโดยไม่จําเป็นต้องให้ผู้ใช้กำหนดพารามิเตอร์ ขั้นตอนวิธีคำนวณคะแนนความผิดปกติจากการกระจายทางสถิติของการแจกแจงอัตราส่วนมวล โดยใช้ห้ามาตรวัด ได้แก่ ความแปรปรวน พิสัย พิสัยระหว่างควอร์ไทล์ ค่าเบี่ยงเบนเฉลี่ยสัมบูรณ์ และการผสานของเอเอดีและไอคิวอาร์ ประสิทธิภาพของขั้นตอนวิธีปัจจัยความผิดปกติบนพื้นฐานสัดส่วนมวลผลรวมนูนของค่าเบี่ยงเบนสัมบูรณ์เฉลี่ย และพิสัยระหว่างควอร์ไทล์ เรียกเอ็มเอไอโอเอฟนํามาเปรียบเทียบกับสามวิธีที่เป็นที่ยอมรับ ได้แก่ ขั้นตอนวิธีเพื่อนบ้านใกล้สุดเค ขั้นตอนวิธีปัจจัยผิดปกติเฉพาะที่ ขั้นตอนวิธีปัจจัยผิดปกติความแปรปรวนสัดส่วนมวล จากชุดข้อมูลยูซีไอ 22 ชุด ขั้นตอนวิธีเอ็มเอไอโอเอฟ แสดงประสิทธิภาพที่เหนือกว่าทั้งสามวิธี นอกจากนี้ การพัฒนาด้วยการใช้การวนซ้ำหนึ่งลูปสําหรับการคํานวณ ระยะทางช่วยเพิ่มความสามารถในการปรับขนาดของอัลกอริทึม ทําให้สามารถประมวลผลชุดข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.