Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การให้คะแนนจุดผิดปกติไร้พารามิเตอร์โดยใช้ความแปรปรวนของอัตราส่วนมวลสำหรับข้อมูลสถิตและสตรีมมิ่ง
Year (A.D.)
2021
Document Type
Thesis
First Advisor
Somjai Boonsiri
Second Advisor
Krung Sinapiromsaran
Faculty/College
Faculty of Science (คณะวิทยาศาสตร์)
Department (if any)
Department of Mathematics and Computer Science (ภาควิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Computer Science and Information Technology
DOI
10.58837/CHULA.THE.2021.115
Abstract
Outlier detection is a significant problem that has been studied in a variety of research and real-world applications. However, little research has been conducted on unsupervised parameter-free outlier scoring. This thesis proposes Mass ratio variance-based Outlier Factor, or MOF, which is unsupervised parameter-free outlier scoring for static data. This algorithm calculates outlier scores based on the variance of mass ratio. The data points with high outlier scores are associated with outliers while the data points with low outlier scores are associated with normal data points. This thesis also proposes Streaming Mass ratio variance-based Outlier Factor or SMOF. This algorithm calculates outlier scores based on MOF and the non-overlapping sliding window model which keeps the dense data points by weighted random sampling making highly efficient storage. Extensive experiments have been conducted to evaluate the performance of MOF and SMOF using synthesized and real-world data sets. The experimental results show that they have better accuracy than the state-of-the-art outlier detection techniques.
Other Abstract (Other language abstract of ETD)
การตรวจจับจุดข้อมูลผิดปกติเป็นปัญหาสำคัญที่ได้รับการศึกษาวิจัยและการประยุกต์จริงกับข้อมูล อย่างไรก็ตามมีการวิจัยเพียงเล็กน้อยเกี่ยวกับการให้คะแนนค่าความผิดปกติที่ปราศจากพารามิเตอร์แบบไม่มีผู้สอน วิทยานิพนธ์นี้เสนอค่าปัจจัยความผิดปกติของความแปรปรวนอัตราส่วนมวลหรือเอ็มโอเอฟ ซึ่งเป็นการให้คะแนนค่าความผิดปกติที่ปราศจากพารามิเตอร์แบบไม่มีผู้สอนกับข้อมูลสถิต ขั้นตอนวิธีนี้คำนวณคะแนนความผิดปกติตามความแปรปรวนของอัตราส่วนของมวล จุดข้อมูลที่มีคะแนนผิดปกติสูงจะสัมพันธ์กับจุดผิดปกติ ในขณะที่จุดข้อมูลที่มีคะแนนผิดปกติต่ำจะสัมพันธ์กับจุดปกติ วิทยานิพนธ์นี้ยังเสนอขั้นตอนวิธีปัจจัยความผิดปกติของความแปรปรวนอัตราส่วนมวลในข้อมูลสตรีมมิ่งหรือเอสเอ็มโอเอฟ ขั้นตอนวิธีนี้จะคำนวณคะแนนความผิดปกติอิงตามเอ็มโอเอฟและแบบจำลองหน้าต่างบานเลื่อนที่ไม่ทับซ้อนกัน ซึ่งเก็บกลุ่มข้อมูลหนาแน่นโดยวิธีการสุ่มตัวอย่างตามน้ำหนัก ทำให้วิธีการจัดเก็บข้อมูลมีประสิทธิภาพสูง วิทยานิพนธ์นี้ได้ทำการทดลองที่ครอบคลุม หลากหลายกรณีเพื่อประเมินประสิทธิภาพของเอ็มโอเอฟและเอสเอ็มโอเอฟโดยใช้ชุดข้อมูลที่สังเคราะห์และใช้งานจริง ผลการทดลองแสดงให้เห็นว่าวิธีดังกล่าวมีความแม่นยำมากกว่าเทคนิคการตรวจจับจุดข้อมูลผิดปกติที่ล้ำสมัย
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Changsakul, Phichapop, "Parameter-free outlier scoring using mass ratio variance for static and streaming data" (2021). Chulalongkorn University Theses and Dissertations (Chula ETD). 4657.
https://digital.car.chula.ac.th/chulaetd/4657