Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
A performance assessment of repeated Jenks natural breaks classification on univariate data
Year (A.D.)
2021
Document Type
Thesis
First Advisor
นัท กุลวานิช
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2021.1063
Abstract
การแบ่งช่วงธรรมชาติเจงค์เป็นวิธีการจัดกลุ่มข้อมูลที่ได้รับความนิยม งานวิจัยนี้ได้นำการแบ่งช่วงธรรมชาติเจงค์มาปรับใช้ด้วยการเพิ่มจำนวนกลุ่มที่ใช้แบ่งเรื่อย ๆ จนกว่าจุดแบ่งแรกของการแบ่งช่วงธรรมชาติเจงค์จะเปลี่ยนแปลงไปน้อยกว่าค่าร้อยละที่กำหนดและใช้จุดแบ่งแรกนั้นในการแบ่งข้อมูลออกเป็น 2 กลุ่ม จากการทดสอบประสิทธิภาพด้วยการจำลองข้อมูลตัวแปรเดียวที่มีการแจกแจงในรูปแบบการแจกแจงปกติแบบผสมและการแจกแจงล็อกปกติแบบผสม 2 กลุ่มและเปรียบเทียบกับวิธีการแบ่งกลุ่มข้อมูลอื่น ๆ พบว่าการแบ่งช่วงธรรมชาติเจงค์แบบซ้ำนั้นไม่มีประสิทธิภาพในการแบ่งข้อมูลแจกแจงปกติแบบผสมเมื่อต้องการให้ได้ความแม่นยำสูงสุด และเหมาะสมกับการใช้ในข้อมูลแจกแจงล็อกปกติแบบผสมเมื่อข้อมูล 2 กลุ่มมีจำนวนใกล้เคียงกันหรือกลุ่มที่ค่าเฉลี่ยสูงกว่ามีจำนวนมากกว่า นอกจากนี้การแบ่งช่วงธรรมชาติเจงค์แบบซ้ำใช้เวลาในการแบ่งกลุ่มกว่าวิธีอื่นมาก จึงไม่เหมาะสมที่จะนำมาใช้หากข้อมูลมีจำนวนมาก
Other Abstract (Other language abstract of ETD)
Jenks natural breaks classification is a data clustering method that is widely used. This research uses a modified version of Jenks natural breaks classification by increasing the number of groups that are used for clustering until the change of the first break is less than the specified percentage. The first break is then used to split the data into two groups. We perform a performance assessment of repeated Jenks natural breaks classification against other types of data clustering methods by using 2-group normal mixture distribution and 2-group log-normal mixture distribution univariate simulated data. The research found that repeated Jenks natural breaks classification is not suitable for maximizing the overall accuracy of the normal mixture distribution. Repeated Jenks natural breaks classification can be used for log-normal mixture distribution if the proportion of each group is relatively equal or higher-mean group leaning. Compare to other methods of clustering, repeated Jenks natural breaks classification has a relatively high computational time which might not be suitable for data with a high quantity of data points.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
สุขแพทย์, วิชญ์ยุตม์, "การทดสอบประสิทธิภาพการแบ่งข้อมูลตัวแปรเดียวด้วยการใช้การแบ่งช่วงธรรมชาติเจงค์แบบซ้ำ" (2021). Chulalongkorn University Theses and Dissertations (Chula ETD). 5605.
https://digital.car.chula.ac.th/chulaetd/5605