Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
A PROPOSED METHOD TO COMPARE AREAS UNDER THE ROC CURVES FOR A SINGLE DATASET: A CASE STUDY OF CREDIT SCORING MODEL
Year (A.D.)
2017
Document Type
Thesis
First Advisor
ณัตติฤดี เจริญรักษ์
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2017.1530
Abstract
การเปรียบเทียบพื้นที่ใต้โค้ง ROC ระหว่างตัวแบบเต็มรูปกับตัวแบบลดรูปเป็นวิธีที่ใช้กันอย่างแพร่หลาย ซึ่งวิธีที่นิยมใช้ในการเปรียบเทียบ คือ วิธี Delong แต่วิธีนี้ควรนำมาใช้เมื่อผลต่างของพื้นที่ ROC มีการแจกแจงปกติ งานวิจัยนี้จึงมีวัตถุประสงค์เพื่อหาวิธีเปรียบเทียบพื้นที่ใต้โค้ง ROC ระหว่างตัวแบบเต็มรูปกับตัวแบบลดรูปเมื่อผลต่างของพื้นที่ ROC ไม่มีการแจกแจงแบบปกติ โดยทำการแปลงข้อมูลผลต่างพื้นที่ใต้โค้ง ROC ระหว่างตัวแบบเต็มรูปและตัวแบบลดรูปให้มีการแจกแจงปกติแล้วนำไปทดสอบผลต่างด้วย Z-test (วิธี Transform) นอกจากนี้ผู้วิจัยยังได้เปรียบเทียบประสิทธิภาพของการเปรียบเทียบพื้นที่ใต้โค้ง ROC ระหว่างวิธี Transform และวิธี Delong test โดยทำการจำลองข้อมูลจาก German credit ใน package caret ในโปรแกรม R เพื่อนำมาสร้างตัวแบบโลจิสติกสำหรับการเปรียบเทียบพื้นที่ใต้โค้งของทั้ง 2 วิธี และนำผลของทั้ง 2 วิธีในแต่ละขนาดตัวอย่างมาหาค่าสัมประสิทธิ์สหสัมพันธ์กับผลการวิเคราะห์จากวิธี Likelihood ratio test (LRT) ซึ่งเป็นอีกวิธีที่ใช้เปรียบเทียบตัวแบบโลจิสติก อนึ่งวิธี LRT นี้ไม่สามารถใช้เปรียบเทียบตัวแบบทางสถิติบางตัวแบบ เช่น Support Vector Machine แต่สามารถทำการเปรียบเทียบตัวแบบได้โดยการเปรียบเทียบพื้นที่ใต้โค้ง ROC ดังนั้นการเปรียบเทียบพื้นที่ใต้โค้ง ROC จึงเป็นวิธีหนึ่งในการช่วยเลือกตัวแบบที่เหมาะสม ผลการวิจัยพบว่า ที่ขนาดตัวอย่าง 300 500 และ 1000 วิธีการเปรียบเทียบพื้นที่ใต้โค้ง ROC โดยวิธีการแปลงข้อมูลผลต่างพื้นที่ใต้โค้ง ROC (วิธี Transform) มีค่าสัมประสิทธิ์สหสัมพันธ์ของ p-value ที่สอดคล้องกับวิธี LRT มากกว่าวิธี Delong อย่างมีนัยสำคัญทางสถิติที่ระดับนัยสำคัญ 0.05 นอกจากนั้นพบว่า ค่าสัมประสิทธิ์สหสัมพันธ์ของ p-value มีค่าไม่แตกต่างกันอย่างมีนัยสำคัญทางสถิติที่ระดับนัยสำคัญ 0.05
Other Abstract (Other language abstract of ETD)
Comparing areas under the ROC curves between full and reduced model has been widely used. The most commonly used method of comparison is Delong test. However, this method should be used when the difference of areas under the ROC curves is normally distributed. The purpose of this research is to find a method comparing areas under the ROC curves between full and reduced model when the difference of areas under the ROC curves is not normal distribution. In this research, the method is done by transforming the difference of areas under the ROC curves between full and reduced model to be normal distributed and then used Z-test to compare the difference (Transform method). Additionally, we compared our Transform method with Delong test by simulated data from German credit in the Caret package in R program. To compare these two methods, we estimated logistic regression models and computed correlation coefficient between p-values from these two methods and p-values from the Likelihood ratio test (LRT) which is another method used to compare two models in the logistics model. LRT cannot be used to compare models in some statistical models such as Support Vector Machine. Nevertheless, we can compare the models by using area of ROC curve. Therefore, comparing areas under the ROC curves is one way to help us choose a proper model. The research has revealed that at the different sample sizes including 300, 500 and 1,000, the transform method has higher correlation of p-values which correspond to LRT more than Delong test at significance level of 0.05. Moreover, The correlation of p-values are not significantly different at the significance level of 0.05.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
เอี่ยมประโคน, เบญจพร, "วิธีการเปรียบเทียบพื้นที่ใต้โค้ง ROC สำหรับข้อมูลชุดเดียวกัน: กรณีศึกษาแบบจำลองคะแนนเครดิต" (2017). Chulalongkorn University Theses and Dissertations (Chula ETD). 2020.
https://digital.car.chula.ac.th/chulaetd/2020