Chulalongkorn University Theses and Dissertations (Chula ETD)

การหาจุดแบ่งของตัวแบบการถดถอยโลจิสติกแบบ 2 ประเภท สำหรับการพยากรณ์การจำแนกข้อมูลโดยใช้ฟังก์ชันโพรบิตเป็นฟังก์ชันเชื่อมโยง

Other Title (Parallel Title in Other Language of ETD)

The cut-off point estimation of binary logistic regression model for predictive classification using probit function as a link function

Year (A.D.)

2012

Document Type

Thesis

First Advisor

สุพล ดุรงค์วัฒนา

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Degree Name

สถิติศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2012.558

Abstract

การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อหาจุดแบ่งที่เหมาะสมที่สุดสำหรับตัวแบบถดถอยโลจิสติกแบบ 2 ประเภทสำหรับการจำแนกข้อมูลโดยใช้ฟังก์ชันโพรบิตเป็นฟังก์ชันเชื่อมโยง โดยปัจจัยที่สนใจศึกษาในงานการวิจัยครั้งนี้คือจำนวนตัวแปรอิสระเป็น 1, 2, 3, 4 และ 5 ขนาดตัวอย่างเป็น 50, 100, 150, 200 และ 250 สัดส่วนของการไม่เกิดเหตุการณ์ที่สนใจเป็น 0.1, 0.5 และ 0.9 และระดับความสัมพันธ์ระหว่างตัวแปรอิสระเป็น 3 ระดับคือความสัมพันธ์กันในระดับตํ่า(0 < 0.30) ระดับปานกลาง (0.30 < 0.60) และระดับสูง ( 0.60 < 0.90) ซึ่งข้อมูลทั้งหมดจำลองโดยเทคนิคมอนติคาร์โล ด้วยโปรแกรม R การหาค่าจุดแบ่งจะใช้ทฤษฎีของHadjicostas P. (2006) ผลการวิจัยสรุปได้ดังนี้ กรณีที่จำนวนตัวแปรอิสระเปลี่ยนแปลง แต่ปัจจัยอื่นๆ คงที่พบว่าที่สัดส่วนของการไม่เกิดเหตุการณ์ที่สนใจเท่ากับ 0.5 ค่าเฉลี่ยของจุดแบ่งมีค่าขึ้นๆ ลงๆ และลู่เข้าสู่ค่า 0.5แต่ค่าเฉลี่ยจะมีค่าต่ำกว่าค่า0.5 เมื่อระดับความสัมพันธ์สูงและขนาดตัวอย่างใหญ่ และที่สัดส่วนของการไม่เกิดเหตุการณ์ที่สนใจอื่นๆ ส่วนใหญ่ค่าเฉลี่ยของจุดแบ่งมีค่าขึ้นๆ ลงๆ และลู่เข้าสู่ค่า0.5กรณีที่ขนาดตัวอย่างเปลี่ยนแปลง แต่ปัจจัยอื่นๆ คงที่พบว่าที่สัดส่วนของการไม่เกิดเหตุการณ์ที่สนใจเท่ากับ 0.5 ค่าเฉลี่ยของจุดแบ่งมีค่าขึ้นๆ ลงๆ และลู่เข้าสู่ค่า 0.5และที่สัดส่วนของการไม่เกิดเหตุการณ์ที่สนใจอื่นๆ ส่วนใหญ่ค่าเฉลี่ยของจุดแบ่งมีค่าขึ้นๆ ลงๆ และลู่เข้าสู่ค่า 0.5กรณีที่สัดส่วนของการไม่เกิดเหตุการณ์ที่สนใจเปลี่ยนแปลง แต่ปัจจัยอื่นๆ คงที่พบว่า ส่วนใหญ่ค่าเฉลี่ยของจุดแบ่งมีค่าขึ้นๆ ลงๆ และลู่เข้าสู่ค่า 0.5 กรณีที่ระดับความสัมพันธ์ระหว่างตัวแปรอิสระเปลี่ยนแปลงไปแต่ปัจจัยอื่นๆคงที่พบว่า ส่วนใหญ่ค่าเฉลี่ยของจุดแบ่งมีค่าขึ้นๆ ลงๆ และลู่เข้าสู่ค่า 0.5

Other Abstract (Other language abstract of ETD)

The object of this study is to find out the optimal cut-off point estimation of binary logistic regression model for predictive classification using probit function. The interesting factors are the numbers of independent variables (p) are 1, 2, 3, 4 and 5, the sample size (n) are 50, 100, 150, 200 and 250, the failure rate (a) are 0.1, 0.5 and 0.9 and the degree of multicollinearity among independent variables with 3 levels; low level (0 < 0.30), medium level(0.30 < 0.60)and high level (0.60 < 0.90). The data in all situations are generated using Monte Carlo technique through R-program. The cut-off point is captured using Hadjicostas P. (2006) theory. The results can be summarized as follow: As the number of independent variables change and the other factors are kept constant, with the failure rate equal to 0.5, the mean value of the cut-off point converges to 0.5 and the mean value of the cut-off pointless than 0.5 when the sample size is big and the degree of multicollinearity among independent variables is high level and the otherfailure rates,the mean value of the cut-off point mostlyconverge to value of 0.5. As sample size changeand the other factors are kept constant, with the failure rate equals to 0.5, the mean value of the cut-off point converges to 0.5 and with otherfailure rates,the mean value of the cut-off point mostly converges to 0.5. As the failure rate changeand the other factors are kept constant, the mean value of the cut-off point mostly converges to 0.5. As the degree of multicollinearity among independent variables changed and the other factors are keptconstant, the mean value of the cut-off point mostly converges to 0.5.

Share

COinS