Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A performance comparison of robust lasso regression methods under high-dimensional data with outliers

Year (A.D.)

2023

Document Type

Thesis

First Advisor

วิฐรา พึ่งพาพงศ์

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติและวิทยาการข้อมูล

DOI

10.58837/CHULA.THE.2023.693

Abstract

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพการประมาณค่าสัมประสิทธิ์การถดถอยทั้งหมด 5 วิธี คือ 1) วิธีการลาสโซแบบปรับได้ที่ใช้ค่าถ่วงน้ำหนักด้วยวิธีการริดจ์ (AD-R) 2) วิธีการลาสโซแบบปรับได้ที่ใช้ค่าถ่วงน้ำหนักด้วยวิธีการลาสโซ (AD-L) 3) วิธีการ LAD Lasso (LAD) 4) วิธีการ Huber Lasso (HB) 5) วิธีการลาสโซแบบปรับได้ที่มีความแกร่ง (RA) ภายใต้ข้อมูลมิติสูง ผ่านข้อมูลจำลองใน 4 กรณีคือ (i) กรณีที่ไม่มีปัญหาค่านอกเกณฑ์ มีค่านอกเกณฑ์ขนาดปานกลางในตัวแปรตาม และมีค่านอกเกณฑ์ขนาดใหญ่ในตัวแปรตาม (ii) กรณีที่ตัวแปรอิสระมีความสัมพันธ์ระดับปานกลางและสูง (iii) กรณีอัตราส่วนสัญญาณต่อสัญญาณรบกวน (SNR) สูงและต่ำ (iv) ขนาดตัวแปรอิสระที่แตกต่างกัน ในการเปรียบเทียบประสิทธิภาพจะพิจารณาความถูกต้องในการพยากรณ์ รวมถึงประสิทธิภาพในการคัดเลือกตัวแปรเข้าสู่ตัวแบบ ผลการศึกษาพบว่า ในด้านความถูกต้องในการพยากรณ์ ในกรณีที่ข้อมูลไม่มีปัญหาค่านอกเกณฑ์ เมื่อตัวแปรมีความสัมพันธ์ระดับสูง AD-R ความสามารถในการพยากรณ์ดีที่สุดในภาพรวม และเมื่อตัวแปรมีความสัมพันธ์ระดับปานกลาง AD-L จะมีความสามารถในการพยากรณ์ดีที่สุดในเกือบทุกกรณี แต่เมื่อข้อมูลมีค่านอกเกณฑ์ขนาดกลาง วิธีการ Huber Lasso มีประสิทธิภาพในการพยากรณ์ดีที่สุดในหลายกรณี ในขณะที่ LAD Lasso จะมีความประสิทธิภาพในการพยากรณ์ดีที่สุดในเกือบทุกกรณีที่ข้อมูลมีค่านอกเกณฑ์ขนาดใหญ่ สำหรับประสิทธิภาพในการคัดเลือกตัวแปรเข้าสู่ตัวแบบ พบว่าในภาพรวม ค่าเฉลี่ยของความแม่นยำและความจำเพาะของวิธีการ AD-L จะมีค่าสูงที่สุดในหลายกรณี แต่เมื่อตัวแปรอิสระมีความสัมพันธ์กันสูง วิธีการ RA จะมีค่าเฉลี่ยความแม่นยำและความจำเพาะสูงสุดในหลายกรณี ในขณะที่ค่าเฉลี่ยของค่าความระลึกของวิธีการ AD-R จะมีค่าเฉลี่ยสูงที่สุดในเกือบทุกกรณีที่ SNR ต่ำและตัวแปรมีความสัมพันธ์กันสูง ส่วนกรณีที่ SNR สูงและตัวแปรมีความสัมพันธ์กันระดับปานกลาง Huber Lasso และ LAD Lasso จะมีค่าเฉลี่ยของค่าความระลึกสูงที่สุด

Other Abstract (Other language abstract of ETD)

This research aims to compare the performance of parameter estimations among 5 methods, namely 1) Adaptive Lasso with the weights by Ridge Regression (AD-R) 2) Adaptive Lasso with weights by Lasso Regression (AD-L) 3) LAD Lasso (LAD) 4) Huber Lasso (HB) 5) Robust Adaptive Lasso (RA) under high-dimensional data. Simulation studies are conducted by considering 4 cases: (i) no outlier, moderate and large number of outliers on dependent variable (ii) moderate and high correlation among independent variables (iii) strong and weak signal-to-noise ratio (SNR) (iv) different independent variable sizes. The performances of the 5 methods are compared in terms of prediction accuracy and variable selection performance. Our simulation studies show that, in terms of prediction accuracy, when there is no outlier in the data and the correlations among the independent variables are high, AD-R outperforms other methods overall. Similarly, under conditions with no outlier with moderate correlation among independent variables, AD-L achieves the best performance for most cases. When there is moderate number of outliers in dependent variable, Huber Lasso demonstrates superior performance while LAD Lasso performs the best in most cases when large number of outliers present. In terms of variable selection performance, the average of accuracy and specificity of the AD-L has the highest values overall, but when the independent variable is highly correlated, the RA has the highest accuracy and specificity average in most cases. For variable selection recall, at low SNR and high correlation, AD-R demonstrates the highest average recall in most cases. Conversely, under conditions of high SNR and moderate correlation, Huber Lasso and LAD Lasso exhibits the highest average recall overall.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.