Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

เกณฑ์การคัดเลือกตัวแบบสำหรับการวิเคราะห์การถดถอยลอจิสติกเพื่อการวิเคราะห์เชิงคาดการณ์

Year (A.D.)

2023

Document Type

Thesis

First Advisor

Vitara Pungpapong

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

Master of Science

Degree Level

Master's Degree

Degree Discipline

Statistics and Data Science

DOI

10.58837/CHULA.THE.2023.694

Abstract

This study investigates the performance of various model selection criteria for binary logistic regression models in diverse data settings. The research compares traditional criteria (AIC, AICc, BIC, FIC) and proposes criteria (pAIC, pAICc, pBIC) designed to improve predictive ability and prevent overfitting. A simulation study systematically manipulates factors like imbalanced ratios, collinearity, number of observations, and number of variables to evaluate the effectiveness of these criteria across various scenarios. The performance is assessed using four key metrics: F1-score, false positive rate, false negative rate, and Area Under the Curve (AUC). The findings reveal a complex interplay between data characteristics and criterion performance. While no single criterion dominated, data characteristics significantly impacted performance. Traditional criteria excelled in F1-score and lowest false negative rate with balanced data and abundant observations, but struggled with limited data. BIC performed well in balanced, uncorrelated settings, but suffered with data complexity. The proposed criteria effectively controlled false positives and maintained AUC across various scenarios, making them suitable for imbalanced or limited data. The Focused Information Criterion (FIC) appears to be less competitive compared to other criteria for binary logistic regression model selection across diverse data scenarios.

Other Abstract (Other language abstract of ETD)

การศึกษานี้มุ่งประเมินประสิทธิภาพของเกณฑ์การเลือกโมเดลสำหรับการถดถอยโลจิสติกแบบไบนารี (binary logistic regression) ในชุดข้อมูลที่หลากหลาย งานวิจัยนี้เปรียบเทียบเกณฑ์แบบดั้งเดิม (AIC, AICc, BIC, FIC) และเสนอเกณฑ์ใหม่ที่ออกแบบมา (pAIC, pAICc, pBIC) เพื่อปรับปรุงความสามารถในการทำนายและป้องกัน overfitting การศึกษานี้ใช้การจำลองชุดข้อมูลโดยปรับปัจจัยต่าง ๆ เช่น อัตราส่วนความไม่สมดุล (imbalanced ratio) ความสหสัมพันธ์ (collinearity) จำนวนข้อมูล (number of observations) และจำนวนตัวแปร (number of variables) เพื่อประเมินประสิทธิภาพของเกณฑ์การเลือกโมเดลในสถานการณ์ต่าง ๆ ประสิทธิภาพจะถูกประเมินโดยใช้ตัวชี้วัดสำคัญสี่ประการ ได้แก่ F1-score, false positive rate, false negative rate และ AUC ผลการวิจัยเผยให้เห็นความสัมพันธ์ระหว่างลักษณะของข้อมูลกับประสิทธิภาพของเกณฑ์การเลือกโมเดล แม้ว่าจะไม่มีเกณฑ์การเลือกโมเดลใดที่มีประสิทธิภาพดีที่สุดในทุกรูปแบบชุดข้อมูล โดยเกณฑ์ AIC และเกณฑ์ AICc มีแนวโน้มที่จะมี F1-score สูงและอัตรา false negative ต่ำเมื่อใช้กับข้อมูลที่สมดุลที่มีจำนวนมาก แต่ประสิทธิภาพจะลดลงเมื่อข้อมูลลดลง ส่วนเกณฑ์ BIC ทำงานได้ดีในสถานการณ์ที่ข้อมูลสมดุลและไม่มีความสหสัมพันธ์ แต่ประสิทธิภาพจะลดลงเมื่อข้อมูลมีความซับซ้อน เกณฑ์การเลือกโมเดลที่เสนอใหม่ (pAIC, pAICc, pBIC) มีแนวโน้มที่จะมีอัตรา false positive ต่ำและค่า AUC สูงในชุดข้อมูลที่มีความหลากหลาย ทำให้เหมาะสำหรับการใช้กับข้อมูลที่ไม่สมดุลหรือมีจำนวนจำกัด สุดท้ายเกณ์ FIC ประสิทธิภาพที่ด้อยกว่าเกณฑ์อื่น ๆ เมื่อนำไปใช้กับการเลือกโมเดลการถดถอยโลจิสติกแบบไบนารี

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.