Chulalongkorn University Theses and Dissertations (Chula ETD)

Anomaly detection on time series from furthest neighbor window subseries

Other Title (Parallel Title in Other Language of ETD)

การตรวจหาข้อมูลที่ผิดปกติบนอนุกรมเวลาจากหน้าต่างอนุกรมย่อยเพื่อนบ้านไกลสุด

Year (A.D.)

2016

Document Type

Thesis

First Advisor

Krung Sinapiromsaran

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Degree Name

Master of Science

Degree Level

Master's Degree

Degree Discipline

Applied Mathematics and Computational Science

DOI

10.58837/CHULA.THE.2016.1304

Abstract

Anomaly detection in time series is classified into three types which are point anomaly, contextual anomaly, and collective anomaly. This work proposes a novel method called the Furthest Neighbor Window Subseries (FNWS) for detecting contextual anomalies which normally appear in a time series dataset. Three quartiles representing a local distribution are computed and relocated by subtracting the first data point in the window subseries. A vector of three quartiles —the lower quartile, the median and the upper quartile —is used to compute the distances among all window subseries and the furthest k-nearest neighbor distance is picked as the score. The collection of the one-dimensional score is sorted and the score quartiles are computed. The interquartile range rule from the adjusted boxplot for skew distributions is applied to identify anomalies. The empirical experiments on the benchmark time series datasets from Yahoo with a list of labeled outliers are performed and evaluated using precision, recall, and F-measure. The results show that FNWS works effectively and accurately having the average scores more than 80% on all metrics.

Other Abstract (Other language abstract of ETD)

การตรวจหาข้อมูลที่ผิดปกติบนอนุกรมเวลา แบ่งได้เป็นสามประเภท คือ ความผิดปกติแบบจุด ความผิดปกติเมื่อเทียบกับบริเวณข้างเคียง และความผิดปกติเมื่อรวมกันเป็นกลุ่ม งานวิจัยนี้ นำเสนอวิธีการตรวจจับความผิดปกติบนข้อมูลประเภทอนุกรมเวลา เรียกว่า การตรวจหาข้อมูลที่ผิดปกติบนอนุกรมเวลาจากหน้าต่างอนุกรมย่อยเพื่อนบ้านไกลสุด ค่าควอร์ไทล์ทั้งสามค่าซึ่งถูกใช้เป็นตัวแทนการแจกแจงจะถูกคำนวณและหักออกด้วยข้อมูลตัวแรก ในหน้าต่างอนุกรมเวลานั้น เวกเตอร์ของควอร์ไทล์ทั้งสามค่า ได้แก่ ควอร์ไทล์บน มัธยฐาน และควอร์ไทล์ล่าง จะถูกใช้เพื่อการคำนวณหาค่าระยะทางระหว่างหน้าต่างย่อย และหาระยะทางไปถึงเพื่อนบ้านตัวที่ k เพื่อนำมาใช้เป็นค่าคะแนน กลุ่มของคะแนนมิติเดียว จะถูกเรียงเพื่อคำนวณหาค่าควอร์ไทล์ เกณฑ์พิสัยควอร์ไทล์จาก บอกซ์พลอตที่ถูกปรับสำหรับการกระจายเบ้ถูกนำมาใช้เพื่อระบุจุดผิดปกติ การทดลองบนชุดข้อมูลอนุกรมเวลาที่ใช้มาจาก เบนซ์มาร์กของยาฮูถูกใช้และประเมินผลด้วยตัววัด พรีซีชัน, รีคอลล์ และ เอฟ-เมเซอร์ ผลที่ได้แสดงให้เห็นว่า เอฟเอ็นดับเบิ้ลยูเอส มีประสิทธิภาพและมีความแม่นยำมากกว่า 80% ในทุกๆ ตัววัด

Share

COinS