Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การตรวจหากลุ่มผิดปกติโดยใช้ระยะทางเพื่อนบ้านใกล้สุด

Year (A.D.)

2017

Document Type

Thesis

First Advisor

Krung Sinapiromsaran

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Department (if any)

Department of Mathematics and Computer Science (ภาควิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์)

Degree Name

Master of Science

Degree Level

Master's Degree

Degree Discipline

Mathematics

DOI

10.58837/CHULA.THE.2017.328

Abstract

The outlierness of an instance in this thesis is defined based on the distance between two instances. For some datasets, outliers may not be isolated and formed small clusters. C-anomalous assemblage is a group of associated outliers having the number of instances less than or equal to C percent of the total instances. This thesis presents the anomalous assemblage detection algorithm called CND using a nearest neighbor distance for an anomalous score. The algorithm computes the index k equal to floor function of C percent times the total number of instances and uses the k-nearest neighbor distance for representing an anomalous score. Then, the adjusted boxplot based on medcouple for skew distribution is used to generate the threshold for detecting outliers. The performance of CND is tested on two types of datasets which are synthetic and real-world datasets from UCI website comparing with WOF and LOF. The experimental results show that CND is better than WOF and LOF on datasets based on precision, recall, and F1-measure.

Other Abstract (Other language abstract of ETD)

ความผิดปกติของข้อมูลในงานวิจัยนี้ถูกนิยามด้วยระยะทางระหว่างข้อมูลสองตัว สำหรับบางเซตข้อมูล ข้อมูลผิดปกติอาจไม่แยกแบบโดดเดี่ยวและก่อตัวเป็นกลุ่มเล็ก ๆ กลุ่มผิดธรรมดา-ซี คือ กลุ่มของข้อมูลผิดปกติซึ่งสัมพันธ์กันโดยมีจำนวนข้อมูลในกลุ่มน้อยกว่าหรือเท่ากับซีเปอร์เซ็นของจำนวนข้อมูลทั้งหมด วิทยานิพนธ์นี้นำเสนอขั้นตอนวิธีการตรวจหากลุ่มผิดธรรมดาเรียกว่า ซีเอ็นดี โดยใช้ระยะห่างเพื่อนบ้านที่ใกล้ที่สุดแทนคะแนนความผิดปกติ ขั้นตอนวิธีนี้คำนวณดัชนีเคให้มีค่าเท่ากับฟังก์ชันพื้นของซีเปอร์เซ็นต์คูณจำนวนข้อมูลทั้งหมด และใช้ระยะทางเพื่อนบ้านใกล้สุดเคเพื่อแทนคะแนนของข้อมูลผิดปกติ หลังจากนั้น การปรับกราฟบ๊อกด้วยเมดคลับเปิลสำหรับการกระจายแบบเบ้ถูกใช้ในการคำนวณขีดแบ่งสำหรับการจับจุดผิดปกติ ประสิทธิภาพของซีเอ็นดีได้ถูกทดสอบกับชุดข้อมูลสองแบบ คือ เซตข้อมูลที่สังเคราะห์และเซตข้อมูลจริงจากเว็บไซต์ยูซีไอ เปรียบเทียบกับ ดับเบิ้ลยูโอเอฟ และ แอลโอเอฟ ผลการทดลองแสดงให้เห็นว่าประสิทธิภาพของ ซีเอ็นดี ดีกว่า ดับเบิ้ลยูโอเอฟ และ แอลโอเอฟ ภายใต้ความแม่นยำ การเรียกคืน และตัววัดเอฟหนึ่ง

Included in

Mathematics Commons

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.