Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
ขั้นตอนวิธีเกาะกลุ่มข้อมูลแบบผิดปกติสุดขีด
Year (A.D.)
2017
Document Type
Thesis
First Advisor
Petarpa Boonserm
Second Advisor
Krung Sinapiromsaran
Faculty/College
Faculty of Science (คณะวิทยาศาสตร์)
Department (if any)
Department of Mathematics and Computer Science (ภาควิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Mathematics
DOI
10.58837/CHULA.THE.2017.329
Abstract
A clustering algorithm is a process of dividing data points into disjoint clusters according to the similarity of the data points. Many researchers have presented and developed the clustering algorithms to be suitable for the different characteristics of the datasets. Therefore, the concept of the identifying anomaly data points in the dataset was adopted in this thesis to explain the similarity of the data points. The main idea is to calculate the minimum distance between data points to identify the extreme anomalous score of all data points. In this thesis, a novel clustering algorithm is proposed called the Extreme Anomalous Clustering algorithm or EAC. This algorithm specifies the extreme anomalous scores for all data points in the dataset and combines two data points with the smallest extreme anomalous score. Then the algorithm selects one data point within the cluster as the representative point which is used to consider the next combination. The experiments of this thesis are created to compare the performance of the EAC algorithm on the simulated datasets and UCI datasets with AGNES, k-means, and DBSCAN. The experimental results show that the EAC algorithm is better than the three algorithms according to the Silhouette and Rand index measurements.
Other Abstract (Other language abstract of ETD)
ขั้นตอนวิธีเกาะกลุ่มข้อมูลคือขั้นตอนการแบ่งจุดข้อมูลออกเป็นกลุ่มที่แยกออกจากกันตามความคล้ายคลึงกันของจุดข้อมูล นักวิจัยจำนวนมากได้นำเสนอและพัฒนาขั้นตอนวิธีเกาะกลุ่มข้อมูลเพื่อให้เหมาะสมกับข้อมูล ที่มีลักษณะแตกต่างกัน ดังนั้นแนวคิดเรื่องการระบุจุดข้อมูลที่ผิดปกติในชุดข้อมูล จึงถูกนำมาใช้ ในวิทยานิพนธ์ นี้เพื่ออธิบายความคล้ายคลึงกันของข้อมูล โดยแนวคิดหลักคือการคำนวณระยะทางที่สั้นที่สุดระหว่าง จุดข้อมูลเพื่อหาคะแนนความผิดปกติสุดขีดของจุf ข้อมูลทั้งหมด ในวิทยานิพนธ์นี้เรานำเสนอขั้นตอนวิธี เกาะกลุ่มข้อมูลแบบใหม่เรียกว่าขั้นตอนวิธีเกาะกลุ่ม ข้อมูลแบบผิดปกติสุดขีด หรือ อีเอซี ขั้นตอนวิธีนี้ทำการระบุคะแนนความผิดปกติสุดขีดให้กับข้อมูลทั้งหมด และรวมจุดข้อมูลสองจุดที่มีคะแนนความผิดปกติสุดขีดน้อยที่สุด จากนั้นทำการเลือกจุดข้อมูลภายในกลุ่ม เป็นจุดตัวแทนซึ่งใช้เพื่อพิจารณาการรวมกลุ่มในครั้งต่อไป การทดลองของวิทยานิพนธ์นี้สร้างขึ้นเพื่อทดสอบ ประสิทธิภาพ ของขั้นตอนวิธีเกาะกลุ่มข้อมูลแบบผิดปกติสุดขีดบนชุดข้อมูลจำลองและชุดข้อมูลจริงจากยูซีไอ เปรียบเทียบกับขั้นตอนวิธีเกาะกลุ่มข้อมูลแบบรวมกัน ขั้นตอนวิธีเกาะกลุ่มข้อมูลแบบเคมีนและขั้นตอน วิธีเกาะกลุ่มข้อมูลแบบดีบีสแกน ผลการทดลองแสดงให้เห็นว่าขั้นตอนวิธีเกาะกลุ่มข้อมูลแบบผิดปกติสุดขีดดี กว่าขั้นตอน วิธีเกาะกลุ่มข้อมูลทั้งสามแบบโดยการประเมินด้วยการวัดแบบซิลูเอ็ตและการวัดดัชนีของแรนด์
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Lisuwan, Panuruk, "Extreme anomalous clustering algorithm" (2017). Chulalongkorn University Theses and Dissertations (Chula ETD). 819.
https://digital.car.chula.ac.th/chulaetd/819