Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การคัดเลือกตัวแปรที่มีมิติสูงภายใต้ความสัมพันธ์เชิงเส้นพหุโดยใช้วิธีไวท์เทนนิ่งอิลาสติคเน็ต

Year (A.D.)

2023

Document Type

Thesis

First Advisor

Vitara Pungpapong

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

Master of Science

Degree Level

Master's Degree

Degree Discipline

Statistics and Data Science

DOI

10.58837/CHULA.THE.2023.699

Abstract

In high-dimensional data research such as genomics data, identifying predictors in highly correlated data poses significant challenges, especially when employing regularization methods. We found WLasso (Whitening Lasso), which effectively handles highly correlated settings by transforming predictors to mitigate correlation and applying generalized Lasso criteria. To ensure fairness in comparison with other regularization methods, we utilize a simplified version of WLasso, retaining its core concept while eliminating the coefficient ranking process. Our aim is to enhance WLasso performance by adapting it to the Generalized Elastic Net framework, resulting in Whitening Elastic Net. Leveraging the transformation process of WLasso, we integrate it into the Generalized Elastic Net and utilizing the genlasso package for computation. We evaluate the performance of Whitening Elastic Net alongside Lasso, Elastic Net, and WLasso through simulation study. However, our findings indicate that Whitening Elastic Net underperforms, exhibiting a high rate of incorrectly selected relevant predictors compared to other regularization methods. While WLasso struggles with a small number of predictors, its performance improves as the number of predictors increases. Thus, while Whitening Elastic Net requires further refinement, WLasso shows promise for variable selection in high-dimensional and highly correlated settings.

Other Abstract (Other language abstract of ETD)

ในการวิจัยข้อมูลมิติสูงเช่นข้อมูลด้านเจนโนมิก การระบุตัวแปรในข้อมูลที่มีความสัมพันธ์สูงอาจเป็นที่ท้าทายอย่างมีนัยสำคัญ โดยเฉพาะเมื่อใช้วิธี regularizaiton เราได้เจอกับ WLasso (Whitening Lasso) ซึ่งเป็นวิธีที่จัดการกับการตั้งค่าที่มีความสัมพันธ์สูงอย่างมีประสิทธิภาพโดยการแปลงตัวทำนายเพื่อลดความสัมพันธ์และใช้เกณฑ์แบบ Generalized Lasso ในการเปรียบเทียบอย่างยุติธรรมกับวิธี regularization อื่น ๆ โดยเราปรับใช้ WLasso แบบเรียบง่าย โดยยังคงความสำคัญหลักของ WLasso ในขณะที่เราจะตัดกระบวนการจัดอันดับค่าสัมประสิทธ์ออกไป หลังจากนั้นเป้าหมายหลักของเราคือการเพิ่มประสิทธิภาพของ WLasso โดยการนำไปปรับใช้กับ Generalized Elastic Net ทำให้เกิดเป็น Whitening Elastic Net โดยใช้กระบวนการแปลงตัวทำนายเพื่อลดความสัมพันธ์ของ WLasso รวมเข้ากันกับ Generalized Elastic Net และใช้แพ็กเกจ genlasso สำหรับการคำนวณ โดยประเมินประสิทธิภาพของ Whitening Elastic Net พร้อมกับ Lasso, Elastic Net และ WLasso ผ่านการศึกษาแบบจำลอง อย่างไรก็ตาม การวิจัยของเราพบว่า Whitening Elastic Net มีประสิทธิภาพต่ำมาก โดยแสดงอัตราการเลือกตัวทำนายที่ไม่ถูกต้องสูงเมื่อเปรียบเทียบกับวิธี regularization อื่น ๆ ในขณะที่ WLasso มีปัญหาเมื่อมีจำนวนตัวทำนายน้อย แต่ประสิทธิภาพของมันดีขึ้นเมื่อจำนวนตัวทำนายเพิ่มขึ้น ดังนั้น ในขณะที่ Whitening Elastic Net ต้องการการปรับปรุงเพิ่มเติมและ WLasso แสดงความเป็นไปได้สำหรับการเลือกตัวแปรในสภาพข้อมูลมิติสูงและมีความสัมพันธ์สูง

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.