Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A comparison of bootstrap methods in interval estimation of high-dimensional regression coefficients

Year (A.D.)

2020

Document Type

Thesis

First Advisor

วิฐรา พึ่งพาพงศ์

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2020.1239

Abstract

งานวิจัยฉบับนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบช่วงความเชื่อมั่นสำหรับค่าสัมประสิทธิ์การถดถอยโดยแนวทางบูตสแตรปที่แตกต่างกัน (1) วิธีสุ่มตัวแปรตามและตัวแปรอิสระ (2) วิธีสุ่มส่วนเหลือ และ (3) วิธีสุ่มค่าถ่วงน้ำหนัก ผู้วิจัยได้จำลองชุดข้อมูลขนาดมิติต่ำและมิติสูงขึ้น และ นำมาวิเคราะห์เปรียบเทียบด้วยวิธีบูตสแตปที่แตกต่างกัน 3 วิธี โดยการวัดค่าเฉลี่ยเปอร์เซ็นต์ช่วงความเชื่อมั่นที่ครอบคลุมค่าสัมประสิทธิ์การถดถอยค่าจริง ค่าเฉลี่ยความกว้าง ค่าเฉลี่ยอัตราผลบวกเทียม และค่าเฉลี่ยอัตราผลลบเทียม ระหว่าง 1,000 ข้อมูล การวิเคราะห์ของเราพบว่าบูตสแตรปที่ใช้สุ่มตัวแปรตามและตัวแปรอิสระดีที่สุดในแง่ของทั้งค่าเฉลี่ยเปอร์เซ็นต์ช่วงความเชื่อมั่นที่ครอบคลุมค่าสัมประสิทธิ์การถดถอยค่าจริงและค่าเฉลี่ยอัตราผลบวกเทียม บูตสแตรปที่ใช้สุ่มส่วนเหลือดีที่สุดในแง่ของค่าเฉลี่ยความกว้าง และบูตสแตรปที่ใช้สุ่มค่าถ่วงน้ำหนักดีที่สุดในแง่ของค่าเฉลี่ยอัตราผลลบเทียม

Other Abstract (Other language abstract of ETD)

The objective of this research is to study and compare confidence intervals for regression coefficients using three different bootstrap approaches: (1) random dependent variable and independent variables (2) random residual and (3) random weight. The high-dimensional datasets are simulated and the performance of the three methods are compared. We measure the average percentage that a confidence interval covers true value of regression coefficient, the mean of width confidence interval, the average false positive rates and the average of false negative rates among 1,000 datasets. Our analysis found that the bootstrap using random dependent variable and independent variables is the best in terms of both the percentage that a confidence interval covers true value of regression coefficient and the average false positive rates. The bootstrap using random residual is the best in terms of the mean of width confidence interval. The bootstrap using random weight is the best in terms of the average false negative rates.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.