Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A performance assessment of repeated Jenks natural breaks classification on univariate data

Year (A.D.)

2021

Document Type

Thesis

First Advisor

นัท กุลวานิช

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2021.1063

Abstract

การแบ่งช่วงธรรมชาติเจงค์เป็นวิธีการจัดกลุ่มข้อมูลที่ได้รับความนิยม งานวิจัยนี้ได้นำการแบ่งช่วงธรรมชาติเจงค์มาปรับใช้ด้วยการเพิ่มจำนวนกลุ่มที่ใช้แบ่งเรื่อย ๆ จนกว่าจุดแบ่งแรกของการแบ่งช่วงธรรมชาติเจงค์จะเปลี่ยนแปลงไปน้อยกว่าค่าร้อยละที่กำหนดและใช้จุดแบ่งแรกนั้นในการแบ่งข้อมูลออกเป็น 2 กลุ่ม จากการทดสอบประสิทธิภาพด้วยการจำลองข้อมูลตัวแปรเดียวที่มีการแจกแจงในรูปแบบการแจกแจงปกติแบบผสมและการแจกแจงล็อกปกติแบบผสม 2 กลุ่มและเปรียบเทียบกับวิธีการแบ่งกลุ่มข้อมูลอื่น ๆ พบว่าการแบ่งช่วงธรรมชาติเจงค์แบบซ้ำนั้นไม่มีประสิทธิภาพในการแบ่งข้อมูลแจกแจงปกติแบบผสมเมื่อต้องการให้ได้ความแม่นยำสูงสุด และเหมาะสมกับการใช้ในข้อมูลแจกแจงล็อกปกติแบบผสมเมื่อข้อมูล 2 กลุ่มมีจำนวนใกล้เคียงกันหรือกลุ่มที่ค่าเฉลี่ยสูงกว่ามีจำนวนมากกว่า นอกจากนี้การแบ่งช่วงธรรมชาติเจงค์แบบซ้ำใช้เวลาในการแบ่งกลุ่มกว่าวิธีอื่นมาก จึงไม่เหมาะสมที่จะนำมาใช้หากข้อมูลมีจำนวนมาก

Other Abstract (Other language abstract of ETD)

Jenks natural breaks classification is a data clustering method that is widely used. This research uses a modified version of Jenks natural breaks classification by increasing the number of groups that are used for clustering until the change of the first break is less than the specified percentage. The first break is then used to split the data into two groups. We perform a performance assessment of repeated Jenks natural breaks classification against other types of data clustering methods by using 2-group normal mixture distribution and 2-group log-normal mixture distribution univariate simulated data. The research found that repeated Jenks natural breaks classification is not suitable for maximizing the overall accuracy of the normal mixture distribution. Repeated Jenks natural breaks classification can be used for log-normal mixture distribution if the proportion of each group is relatively equal or higher-mean group leaning. Compare to other methods of clustering, repeated Jenks natural breaks classification has a relatively high computational time which might not be suitable for data with a high quantity of data points.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.