Chulalongkorn University Theses and Dissertations (Chula ETD)
การเปรียบเทียบประสิทธิภาพการจัดกลุ่มข้อมูลโดยใช้อัลกอริทึมการจัดกลุ่มแบบ 2 ขั้นตอน
Other Title (Parallel Title in Other Language of ETD)
Comparison of two-stage clustering algorithms
Year (A.D.)
2013
Document Type
Thesis
First Advisor
อัครินทร์ ไพบูลย์พานิช
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2013.563
Abstract
การวิจัยในครั้งนี้ มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพการจัดกลุ่มข้อมูลโดยใช้อัลกอริทึมการจัดกลุ่มข้อมูลแบบ 2 ขั้นตอน 4 วิธีด้วยกัน ได้แก่ วิธีที่ 1 SOM ร่วมกับ K-Means วิธีที่ 2 SOM ร่วมกับ Fuzzy C-Means วิธีที่ 3 Ward ร่วมกับ K-Means และวิธีที่ 4 Ward ร่วมกับ Fuzzy C-means โดยทำการศึกษาสำหรับข้อมูลที่มีการแจกแจงแบบปกติหลายตัวแปร (Multivariate Normal Distribution) จำนวนตัวแปรที่ใช้ในการศึกษาครั้งนี้ คือ 2, 4 และ 6 ตัวแปร ลักษณะความสัมพันธ์ของตัวแปร ศึกษาทั้งในกรณีตัวแปรอิสระกัน และ ตัวแปรมีความสัมพันธ์กัน ข้อมูลที่ใช้ในการศึกษามาจากการจำลองข้อมูลโดยมีขนาดตัวอย่าง 25, 100 และ 300 จำนวนกลุ่มที่จำลอง คือ 2, 4 และ 6 กลุ่มสำหรับแต่ละขนาดตัวอย่าง โดยพิจารณาทั้งข้อมูลแต่ละกลุ่มไม่มีการซ้อนทับกัน (Nonoverlapping Clusters) และ ข้อมูลแต่ละกลุ่มมีการซ้อนทับกัน 40% (40% Overlapping Clusters) จากผลการศึกษาโดยเปรียบเทียบค่า Wilk’ s Lambda, ค่าความแตกต่างของข้อมูลภายในกลุ่ม (RMSSTD) และค่า Misclassification Rate พบว่า การจัดกลุ่มแบบ 2 ขั้นตอนด้วยวิธี SOM ร่วมกับ Fuzzy C-Means และวิธี Ward ร่วมกับ Fuzzy C-Means ให้ประสิทธิภาพการจัดกลุ่มดีกว่าวิธี SOM ร่วมกับ K-Means และ Ward ร่วมกับ K-Means
Other Abstract (Other language abstract of ETD)
The objective of this study is to compare four two-stage clustering algorithms: (1) SOM with K-Means, (2) SOM with Fuzzy C-Means, (3) Ward with K-Means and (4) Ward with Fuzzy C-Means. The simulated data using in this study is the multivariate normal distribution with number of variables p=2, 4 and 6 variables with uncorrelated and correlated variables. Data were simulated with sample sizes n=25, 100, 300 and number of clusters k=2, 4, 6. Clusters were also simulated considering both nonoverlapping and 40% overlapping clusters. Based on the simulation results, by comparing values of Wilk’ s Lambda, root mean square standard deviation (RMSSTD) and misclassification rate, SOM with Fuzzy C-Means and Ward with Fuzzy C-Means are better than SOM with K-Means and Ward with K-Means.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
พรมมา, กัณฐิกา, "การเปรียบเทียบประสิทธิภาพการจัดกลุ่มข้อมูลโดยใช้อัลกอริทึมการจัดกลุ่มแบบ 2 ขั้นตอน" (2013). Chulalongkorn University Theses and Dissertations (Chula ETD). 19071.
https://digital.car.chula.ac.th/chulaetd/19071