Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การคัดเลือกตัวแปรที่มีมิติสูงภายใต้ความสัมพันธ์เชิงเส้นพหุโดยใช้วิธีไวท์เทนนิ่งอิลาสติคเน็ต
Year (A.D.)
2023
Document Type
Thesis
First Advisor
Vitara Pungpapong
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Statistics and Data Science
DOI
10.58837/CHULA.THE.2023.699
Abstract
In high-dimensional data research such as genomics data, identifying predictors in highly correlated data poses significant challenges, especially when employing regularization methods. We found WLasso (Whitening Lasso), which effectively handles highly correlated settings by transforming predictors to mitigate correlation and applying generalized Lasso criteria. To ensure fairness in comparison with other regularization methods, we utilize a simplified version of WLasso, retaining its core concept while eliminating the coefficient ranking process. Our aim is to enhance WLasso performance by adapting it to the Generalized Elastic Net framework, resulting in Whitening Elastic Net. Leveraging the transformation process of WLasso, we integrate it into the Generalized Elastic Net and utilizing the genlasso package for computation. We evaluate the performance of Whitening Elastic Net alongside Lasso, Elastic Net, and WLasso through simulation study. However, our findings indicate that Whitening Elastic Net underperforms, exhibiting a high rate of incorrectly selected relevant predictors compared to other regularization methods. While WLasso struggles with a small number of predictors, its performance improves as the number of predictors increases. Thus, while Whitening Elastic Net requires further refinement, WLasso shows promise for variable selection in high-dimensional and highly correlated settings.
Other Abstract (Other language abstract of ETD)
ในการวิจัยข้อมูลมิติสูงเช่นข้อมูลด้านเจนโนมิก การระบุตัวแปรในข้อมูลที่มีความสัมพันธ์สูงอาจเป็นที่ท้าทายอย่างมีนัยสำคัญ โดยเฉพาะเมื่อใช้วิธี regularizaiton เราได้เจอกับ WLasso (Whitening Lasso) ซึ่งเป็นวิธีที่จัดการกับการตั้งค่าที่มีความสัมพันธ์สูงอย่างมีประสิทธิภาพโดยการแปลงตัวทำนายเพื่อลดความสัมพันธ์และใช้เกณฑ์แบบ Generalized Lasso ในการเปรียบเทียบอย่างยุติธรรมกับวิธี regularization อื่น ๆ โดยเราปรับใช้ WLasso แบบเรียบง่าย โดยยังคงความสำคัญหลักของ WLasso ในขณะที่เราจะตัดกระบวนการจัดอันดับค่าสัมประสิทธ์ออกไป หลังจากนั้นเป้าหมายหลักของเราคือการเพิ่มประสิทธิภาพของ WLasso โดยการนำไปปรับใช้กับ Generalized Elastic Net ทำให้เกิดเป็น Whitening Elastic Net โดยใช้กระบวนการแปลงตัวทำนายเพื่อลดความสัมพันธ์ของ WLasso รวมเข้ากันกับ Generalized Elastic Net และใช้แพ็กเกจ genlasso สำหรับการคำนวณ โดยประเมินประสิทธิภาพของ Whitening Elastic Net พร้อมกับ Lasso, Elastic Net และ WLasso ผ่านการศึกษาแบบจำลอง อย่างไรก็ตาม การวิจัยของเราพบว่า Whitening Elastic Net มีประสิทธิภาพต่ำมาก โดยแสดงอัตราการเลือกตัวทำนายที่ไม่ถูกต้องสูงเมื่อเปรียบเทียบกับวิธี regularization อื่น ๆ ในขณะที่ WLasso มีปัญหาเมื่อมีจำนวนตัวทำนายน้อย แต่ประสิทธิภาพของมันดีขึ้นเมื่อจำนวนตัวทำนายเพิ่มขึ้น ดังนั้น ในขณะที่ Whitening Elastic Net ต้องการการปรับปรุงเพิ่มเติมและ WLasso แสดงความเป็นไปได้สำหรับการเลือกตัวแปรในสภาพข้อมูลมิติสูงและมีความสัมพันธ์สูง
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Kanjanaphan, Naphat, "A high-dimensional variable selection under multicollinearity via whitening elastic net" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 11276.
https://digital.car.chula.ac.th/chulaetd/11276