Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การตรวจหากลุ่มผิดปกติโดยใช้ระยะทางเพื่อนบ้านใกล้สุด
Year (A.D.)
2017
Document Type
Thesis
First Advisor
Krung Sinapiromsaran
Faculty/College
Faculty of Science (คณะวิทยาศาสตร์)
Department (if any)
Department of Mathematics and Computer Science (ภาควิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Mathematics
DOI
10.58837/CHULA.THE.2017.328
Abstract
The outlierness of an instance in this thesis is defined based on the distance between two instances. For some datasets, outliers may not be isolated and formed small clusters. C-anomalous assemblage is a group of associated outliers having the number of instances less than or equal to C percent of the total instances. This thesis presents the anomalous assemblage detection algorithm called CND using a nearest neighbor distance for an anomalous score. The algorithm computes the index k equal to floor function of C percent times the total number of instances and uses the k-nearest neighbor distance for representing an anomalous score. Then, the adjusted boxplot based on medcouple for skew distribution is used to generate the threshold for detecting outliers. The performance of CND is tested on two types of datasets which are synthetic and real-world datasets from UCI website comparing with WOF and LOF. The experimental results show that CND is better than WOF and LOF on datasets based on precision, recall, and F1-measure.
Other Abstract (Other language abstract of ETD)
ความผิดปกติของข้อมูลในงานวิจัยนี้ถูกนิยามด้วยระยะทางระหว่างข้อมูลสองตัว สำหรับบางเซตข้อมูล ข้อมูลผิดปกติอาจไม่แยกแบบโดดเดี่ยวและก่อตัวเป็นกลุ่มเล็ก ๆ กลุ่มผิดธรรมดา-ซี คือ กลุ่มของข้อมูลผิดปกติซึ่งสัมพันธ์กันโดยมีจำนวนข้อมูลในกลุ่มน้อยกว่าหรือเท่ากับซีเปอร์เซ็นของจำนวนข้อมูลทั้งหมด วิทยานิพนธ์นี้นำเสนอขั้นตอนวิธีการตรวจหากลุ่มผิดธรรมดาเรียกว่า ซีเอ็นดี โดยใช้ระยะห่างเพื่อนบ้านที่ใกล้ที่สุดแทนคะแนนความผิดปกติ ขั้นตอนวิธีนี้คำนวณดัชนีเคให้มีค่าเท่ากับฟังก์ชันพื้นของซีเปอร์เซ็นต์คูณจำนวนข้อมูลทั้งหมด และใช้ระยะทางเพื่อนบ้านใกล้สุดเคเพื่อแทนคะแนนของข้อมูลผิดปกติ หลังจากนั้น การปรับกราฟบ๊อกด้วยเมดคลับเปิลสำหรับการกระจายแบบเบ้ถูกใช้ในการคำนวณขีดแบ่งสำหรับการจับจุดผิดปกติ ประสิทธิภาพของซีเอ็นดีได้ถูกทดสอบกับชุดข้อมูลสองแบบ คือ เซตข้อมูลที่สังเคราะห์และเซตข้อมูลจริงจากเว็บไซต์ยูซีไอ เปรียบเทียบกับ ดับเบิ้ลยูโอเอฟ และ แอลโอเอฟ ผลการทดลองแสดงให้เห็นว่าประสิทธิภาพของ ซีเอ็นดี ดีกว่า ดับเบิ้ลยูโอเอฟ และ แอลโอเอฟ ภายใต้ความแม่นยำ การเรียกคืน และตัววัดเอฟหนึ่ง
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Singkarn, Kayyasit, "Anomalous assemblage detection using nearest neighbor distance" (2017). Chulalongkorn University Theses and Dissertations (Chula ETD). 818.
https://digital.car.chula.ac.th/chulaetd/818