Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
A performance comparison of robust lasso regression methods under high-dimensional data with outliers
Year (A.D.)
2023
Document Type
Thesis
First Advisor
วิฐรา พึ่งพาพงศ์
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติและวิทยาการข้อมูล
DOI
10.58837/CHULA.THE.2023.693
Abstract
งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพการประมาณค่าสัมประสิทธิ์การถดถอยทั้งหมด 5 วิธี คือ 1) วิธีการลาสโซแบบปรับได้ที่ใช้ค่าถ่วงน้ำหนักด้วยวิธีการริดจ์ (AD-R) 2) วิธีการลาสโซแบบปรับได้ที่ใช้ค่าถ่วงน้ำหนักด้วยวิธีการลาสโซ (AD-L) 3) วิธีการ LAD Lasso (LAD) 4) วิธีการ Huber Lasso (HB) 5) วิธีการลาสโซแบบปรับได้ที่มีความแกร่ง (RA) ภายใต้ข้อมูลมิติสูง ผ่านข้อมูลจำลองใน 4 กรณีคือ (i) กรณีที่ไม่มีปัญหาค่านอกเกณฑ์ มีค่านอกเกณฑ์ขนาดปานกลางในตัวแปรตาม และมีค่านอกเกณฑ์ขนาดใหญ่ในตัวแปรตาม (ii) กรณีที่ตัวแปรอิสระมีความสัมพันธ์ระดับปานกลางและสูง (iii) กรณีอัตราส่วนสัญญาณต่อสัญญาณรบกวน (SNR) สูงและต่ำ (iv) ขนาดตัวแปรอิสระที่แตกต่างกัน ในการเปรียบเทียบประสิทธิภาพจะพิจารณาความถูกต้องในการพยากรณ์ รวมถึงประสิทธิภาพในการคัดเลือกตัวแปรเข้าสู่ตัวแบบ ผลการศึกษาพบว่า ในด้านความถูกต้องในการพยากรณ์ ในกรณีที่ข้อมูลไม่มีปัญหาค่านอกเกณฑ์ เมื่อตัวแปรมีความสัมพันธ์ระดับสูง AD-R ความสามารถในการพยากรณ์ดีที่สุดในภาพรวม และเมื่อตัวแปรมีความสัมพันธ์ระดับปานกลาง AD-L จะมีความสามารถในการพยากรณ์ดีที่สุดในเกือบทุกกรณี แต่เมื่อข้อมูลมีค่านอกเกณฑ์ขนาดกลาง วิธีการ Huber Lasso มีประสิทธิภาพในการพยากรณ์ดีที่สุดในหลายกรณี ในขณะที่ LAD Lasso จะมีความประสิทธิภาพในการพยากรณ์ดีที่สุดในเกือบทุกกรณีที่ข้อมูลมีค่านอกเกณฑ์ขนาดใหญ่ สำหรับประสิทธิภาพในการคัดเลือกตัวแปรเข้าสู่ตัวแบบ พบว่าในภาพรวม ค่าเฉลี่ยของความแม่นยำและความจำเพาะของวิธีการ AD-L จะมีค่าสูงที่สุดในหลายกรณี แต่เมื่อตัวแปรอิสระมีความสัมพันธ์กันสูง วิธีการ RA จะมีค่าเฉลี่ยความแม่นยำและความจำเพาะสูงสุดในหลายกรณี ในขณะที่ค่าเฉลี่ยของค่าความระลึกของวิธีการ AD-R จะมีค่าเฉลี่ยสูงที่สุดในเกือบทุกกรณีที่ SNR ต่ำและตัวแปรมีความสัมพันธ์กันสูง ส่วนกรณีที่ SNR สูงและตัวแปรมีความสัมพันธ์กันระดับปานกลาง Huber Lasso และ LAD Lasso จะมีค่าเฉลี่ยของค่าความระลึกสูงที่สุด
Other Abstract (Other language abstract of ETD)
This research aims to compare the performance of parameter estimations among 5 methods, namely 1) Adaptive Lasso with the weights by Ridge Regression (AD-R) 2) Adaptive Lasso with weights by Lasso Regression (AD-L) 3) LAD Lasso (LAD) 4) Huber Lasso (HB) 5) Robust Adaptive Lasso (RA) under high-dimensional data. Simulation studies are conducted by considering 4 cases: (i) no outlier, moderate and large number of outliers on dependent variable (ii) moderate and high correlation among independent variables (iii) strong and weak signal-to-noise ratio (SNR) (iv) different independent variable sizes. The performances of the 5 methods are compared in terms of prediction accuracy and variable selection performance. Our simulation studies show that, in terms of prediction accuracy, when there is no outlier in the data and the correlations among the independent variables are high, AD-R outperforms other methods overall. Similarly, under conditions with no outlier with moderate correlation among independent variables, AD-L achieves the best performance for most cases. When there is moderate number of outliers in dependent variable, Huber Lasso demonstrates superior performance while LAD Lasso performs the best in most cases when large number of outliers present. In terms of variable selection performance, the average of accuracy and specificity of the AD-L has the highest values overall, but when the independent variable is highly correlated, the RA has the highest accuracy and specificity average in most cases. For variable selection recall, at low SNR and high correlation, AD-R demonstrates the highest average recall in most cases. Conversely, under conditions of high SNR and moderate correlation, Huber Lasso and LAD Lasso exhibits the highest average recall overall.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ศรีภา, อัญชิษฐา, "การเปรียบเทียบประสิทธิภาพของการประมาณค่าสัมประสิทธิ์การถดถอยเชิงเส้นด้วยวิธีการลาสโซที่มีความแกร่งภายใต้ข้อมูลมิติสูงที่มีค่านอกเกณฑ์" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 11284.
https://digital.car.chula.ac.th/chulaetd/11284