Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A comparison of residual bootstrap and pair bootstrap for adaptive lasso + partial ridge method to construct confidence intevals for parameters in high-dimensional sparse linear models

Year (A.D.)

2021

Document Type

Thesis

First Advisor

วิฐรา พึ่งพาพงศ์

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2021.1059

Abstract

งานวิจัยนี้มีวัตถุประสงค์เพื่อเสนอวิธีบูตแสตรปตัวประมาณสัมประสิทธิ์การถดถอยลาสโซ่แบบปรับปรุงและพาร์เชียลริดจ์ ซึ่งเป็นตัวประมาณแบบ 2 ขั้นตอน คือใช้วิธีลาสโซ่แบบปรับปรุงในการคัดเลือกตัวแปรอิสระจากนั้นใช้วิธีริดจ์ในการประมาณค่าสัมประสิทธิ์การถดถอย และเปรียบเทียบกับวิธีบูตแสตรปตัวประมาณสัมประสิทธิ์การถดถอยลาสโซ่และพาร์เชียลริดจ์ โดยทดลองบูตแสตรป 2 วิธีคือ วิธีสุ่มส่วนเหลือและวิธีสุ่มตัวแปรตามพร้อมกับตัวแปรอิสระ ซึ่งเกณฑ์ที่ใช้วัดประสิทธิภาพคือ ความกว้างของช่วงความเชื่อมั่น ความน่าจะเป็นครอบคลุม อัตราผลบวกเทียม และอัตราผลลบเทียม งานวิจัยนี้ศึกษาสัมประสิทธิ์การถดถอยใน 2 ลักษณะได้แก่ บางเบาอย่างอ่อนและบางเบาอย่างรุนแรง และจำลองข้อมูลจากการแจกแจงแบบปกติหลายตัวแปรโดยใช้เมทริกซ์ความแปรปรวนร่วมของค่าคลาดเคลื่อนที่แตกต่างกัน ทั้งหมด 8 กรณี ผลการศึกษาพบว่าวิธีบูตแสตรปแบบสุ่มส่วนเหลือตัวประมาณลาสโซ่แบบปรับปรุงและพาร์เชียลริดจ์มีประสิทธิภาพสูงสุดในแง่การให้ความกว้างของช่วงความเชื่อมั่นโดยเฉลี่ยสั้นที่สุดในเกือบทุกกรณี และวิธีบูตแสตรปแบบสุ่มตัวแปรตามพร้อมกับตัวแปรอิสระตัวประมาณลาสโซ่และพาร์เชียลริดจ์มีประสิทธิภาพสูงสุดเมื่อพิจารณาด้วยเกณฑ์อัตราผลบวกเทียม อย่างไรก็ตาม เมื่อพิจารณาด้วยเกณฑ์ความน่าจะเป็นครอบคลุมและอัตราผลลบเทียมพบว่าไม่ปรากฏวิธีการบูตแสตรปแบบใดแบบหนึ่งที่มีประสิทธิภาพสูงสุดอย่างชัดเจน

Other Abstract (Other language abstract of ETD)

This research is aimed to propose a method, called bootstrap adaptive lasso + partial ridge (ALPR), to construct confidence intervals of regression coefficients in high – dimensional data and compare its performance with bootstrap lasso + partial ridge (LPR). The ALPR is a two-stage estimator. The adaptive lasso is used to select variables and the partial ridge is used to refit the coefficients. Here we perform two techniques of bootstrap which are residual bootstrap (rB) and paired bootstrap (pB). Hence, there are four bootstrap methods to be studied which are rBALPR, rBLPR, pBALPR and pBLPR while mean intervals width, coverage probabilities, false positive rate and false negative rate are used to measure and compare their performance. Simulation studies in 8 cases of high – dimensional data and all of them are generated independently from multivariate normal distribution with different types of covariance matrix. We also consider two cases of coefficients which are weak sparsity and hard sparsity. Our simulation studies show that the residual bootstrap adaptive lasso + partial ridge (rBALPR) produces shortest width of confidence intervals of regression coefficients on average for most cases and the paired bootstrap lasso + partial ridge (pBLPR) is the most effective method in terms of providing lowest false positive rate. However, it is not obvious that which bootstrap method is the best in terms of providing highest coverage probabilities and lowest false negative rate.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.