Chulalongkorn University Theses and Dissertations (Chula ETD)
การจำแนกกลุ่มข้อมูลโดยอัลกอริทึม CHAID
Other Title (Parallel Title in Other Language of ETD)
DATA CLASSIFICATION BY CHAID ALGORITHM
Year (A.D.)
2015
Document Type
Thesis
First Advisor
สุพล ดุรงค์วัฒนา
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2015.563
Abstract
งานวิจัยฉบับนี้มีวัตถุประสงค์เพื่อศึกษากระบวนการจำแนกกลุ่มข้อมูลโดยอัลกอริทึม CHAID สำหรับข้อมูลระหว่างตัวแปร 2 ตัวแปรที่มีการแจกแจงแบบพหุนามและอยู่ในตารางการณ์จรสองทาง โดยพิจารณาความสามารถในการควบคุมความน่าจะเป็นของความผิดพลาดประเภทที่ 1 การแยก การรวม อำนาจการทดสอบ และร้อยละความถูกต้องของการจำแนกกลุ่มข้อมูลเป็นเกณฑ์ในการพิจารณาว่าอัลกอริทึมมีประสิทธิภาพในการจำแนกกลุ่มได้ดีหรือไม่ โดยข้อมูลที่ใช้ในการศึกษาจะจำลองภายใต้จำนวนกลุ่มของตัวแปร 2, 3, 4 และ 5, ขนาดข้อมูลเท่ากับ 200, 400 และ 1,200, ระดับความสัมพันธ์ของข้อมูลเท่ากับ 0, 0.05, 0.1 และ 0.3 และ ระดับนัยสำคัญเท่ากับ 0.05 และ 0.1 และสามารถสรุปผลการศึกษาได้ดังนี้ 1) อัลกอริทึม CHAID สามารถควบคุมความน่าจะเป็นของความผิดประเภทที่ 1 ได้ทุกกรณีเมื่อระดับความสัมพันธ์ของข้อมูลเท่ากับ 0 2) เมื่อพิจารณาที่ระดับความสัมพันธ์ของข้อมูลและระดับนัยสำคัญเท่ากัน เมื่อขนาดข้อมูลเพิ่มขึ้น อำนาจการทดสอบและการแยกจะมีแนวโน้มเพิ่มขึ้น ส่วนการรวมมีแนวโน้มลดลง 3) เมื่อพิจารณาที่ระดับความสัมพันธ์ของข้อมูลและขนาดข้อมูลเท่ากัน เมื่อระดับนัยสำคัญเพิ่มขึ้น อำนาจการทดสอบและการแยกจะมีแนวโน้มเพิ่มขึ้น ส่วนการรวมมีแนวโน้มลดลง 4) เมื่อพิจารณาที่ขนาดข้อมูลและระดับนัยสำคัญเท่ากัน เมื่อระดับความสัมพันธ์ของข้อมูลเพิ่มขึ้น อำนาจการทดสอบ การแยก และร้อยละความถูกต้องของการจำแนกกลุ่มข้อมูลจะมีแนวโน้มเพิ่มขึ้น ส่วนการรวมมีแนวโน้มลดลง นอกจากนี้อำนาจการทดสอบมีแนวโน้มลดลงเมื่อความแตกต่างระหว่างแถวกับหลักเพิ่มขึ้น และร้อยละความถูกต้องของการจำแนกกลุ่มข้อมูลมีแนวโน้มลดลงเมื่อจำนวนกลุ่มของตัวแปรตามเพิ่มขึ้น
Other Abstract (Other language abstract of ETD)
The purpose of this paper is to study the classification process of CHAID (Chi-Square Automatic Interaction Detection) algorithm for bivariate multinomial distribution in two way contingency table. Their capacity of controlling probability of type I error, splitting, merging, power of the test and classification rate are used as the measure how good the algorithm for its classification. The data are simulated under several situations. Each situation depends upon the numbers of levels in variable are 2, 3, 4 and 5, the sample size of each set of data are 200, 400, and 1,200, the strength of the relationship between the variables are 0, 0.05, 0.1 and 0.3 and lastly the levels of significant is used with 0.05 and 0.1. The results of this paper can be concluded as below. 1) CHAID algorithm can control probability of type I error in all cases when the strength of the relationship between the variables is 0. 2) If the strength of the relationship between the variables and the significant levels are equal when the number of sample size increases, then power of the test and the splitting tend to increase and the merging tends to decrease. 3) If the strength of the relationship between the variables and the number of sample size are equal when the significant levels increases, then power of the test and the splitting tend to increase and the merging tends to decrease. 4) If the number of sample size and the significant levels are equal when the strength of the relationship between the variables increases, then power of the test, the splitting and the classification rate tend to increase and the merging tends to decrease. Also, power of the test tends to decrease when the difference of rows and column increase and the classification rate tends to decrease when the number of levels in dependent variable increases.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
กิมชัยวงศ์, วิศรุต, "การจำแนกกลุ่มข้อมูลโดยอัลกอริทึม CHAID" (2015). Chulalongkorn University Theses and Dissertations (Chula ETD). 19145.
https://digital.car.chula.ac.th/chulaetd/19145