Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
เกณฑ์การคัดเลือกตัวแบบสำหรับการวิเคราะห์การถดถอยลอจิสติกเพื่อการวิเคราะห์เชิงคาดการณ์
Year (A.D.)
2023
Document Type
Thesis
First Advisor
Vitara Pungpapong
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Statistics and Data Science
DOI
10.58837/CHULA.THE.2023.694
Abstract
This study investigates the performance of various model selection criteria for binary logistic regression models in diverse data settings. The research compares traditional criteria (AIC, AICc, BIC, FIC) and proposes criteria (pAIC, pAICc, pBIC) designed to improve predictive ability and prevent overfitting. A simulation study systematically manipulates factors like imbalanced ratios, collinearity, number of observations, and number of variables to evaluate the effectiveness of these criteria across various scenarios. The performance is assessed using four key metrics: F1-score, false positive rate, false negative rate, and Area Under the Curve (AUC). The findings reveal a complex interplay between data characteristics and criterion performance. While no single criterion dominated, data characteristics significantly impacted performance. Traditional criteria excelled in F1-score and lowest false negative rate with balanced data and abundant observations, but struggled with limited data. BIC performed well in balanced, uncorrelated settings, but suffered with data complexity. The proposed criteria effectively controlled false positives and maintained AUC across various scenarios, making them suitable for imbalanced or limited data. The Focused Information Criterion (FIC) appears to be less competitive compared to other criteria for binary logistic regression model selection across diverse data scenarios.
Other Abstract (Other language abstract of ETD)
การศึกษานี้มุ่งประเมินประสิทธิภาพของเกณฑ์การเลือกโมเดลสำหรับการถดถอยโลจิสติกแบบไบนารี (binary logistic regression) ในชุดข้อมูลที่หลากหลาย งานวิจัยนี้เปรียบเทียบเกณฑ์แบบดั้งเดิม (AIC, AICc, BIC, FIC) และเสนอเกณฑ์ใหม่ที่ออกแบบมา (pAIC, pAICc, pBIC) เพื่อปรับปรุงความสามารถในการทำนายและป้องกัน overfitting การศึกษานี้ใช้การจำลองชุดข้อมูลโดยปรับปัจจัยต่าง ๆ เช่น อัตราส่วนความไม่สมดุล (imbalanced ratio) ความสหสัมพันธ์ (collinearity) จำนวนข้อมูล (number of observations) และจำนวนตัวแปร (number of variables) เพื่อประเมินประสิทธิภาพของเกณฑ์การเลือกโมเดลในสถานการณ์ต่าง ๆ ประสิทธิภาพจะถูกประเมินโดยใช้ตัวชี้วัดสำคัญสี่ประการ ได้แก่ F1-score, false positive rate, false negative rate และ AUC ผลการวิจัยเผยให้เห็นความสัมพันธ์ระหว่างลักษณะของข้อมูลกับประสิทธิภาพของเกณฑ์การเลือกโมเดล แม้ว่าจะไม่มีเกณฑ์การเลือกโมเดลใดที่มีประสิทธิภาพดีที่สุดในทุกรูปแบบชุดข้อมูล โดยเกณฑ์ AIC และเกณฑ์ AICc มีแนวโน้มที่จะมี F1-score สูงและอัตรา false negative ต่ำเมื่อใช้กับข้อมูลที่สมดุลที่มีจำนวนมาก แต่ประสิทธิภาพจะลดลงเมื่อข้อมูลลดลง ส่วนเกณฑ์ BIC ทำงานได้ดีในสถานการณ์ที่ข้อมูลสมดุลและไม่มีความสหสัมพันธ์ แต่ประสิทธิภาพจะลดลงเมื่อข้อมูลมีความซับซ้อน เกณฑ์การเลือกโมเดลที่เสนอใหม่ (pAIC, pAICc, pBIC) มีแนวโน้มที่จะมีอัตรา false positive ต่ำและค่า AUC สูงในชุดข้อมูลที่มีความหลากหลาย ทำให้เหมาะสำหรับการใช้กับข้อมูลที่ไม่สมดุลหรือมีจำนวนจำกัด สุดท้ายเกณ์ FIC ประสิทธิภาพที่ด้อยกว่าเกณฑ์อื่น ๆ เมื่อนำไปใช้กับการเลือกโมเดลการถดถอยโลจิสติกแบบไบนารี
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Yuttharsaknukul, Pattharapon, "Model criteria selection for predictive purpose in logistic regression" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 11281.
https://digital.car.chula.ac.th/chulaetd/11281