Chulalongkorn University Theses and Dissertations (Chula ETD)
การเปรียบเทียบวิธีคัดกรองตัวแปรสำหรับข้อมูลที่มีมิติสูง
Other Title (Parallel Title in Other Language of ETD)
A COMPARISON OF VARIABLE SCREENING METHODS IN HIGH-DIMENSION DATA
Year (A.D.)
2016
Document Type
Thesis
First Advisor
วิฐรา พึ่งพาพงศ์
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2016.1184
Abstract
งานวิจัยฉบับนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีคัดกรองตัวแปรอิสระจากวิธีการวิเคราะห์การถดถอยพหุเชิงเส้น วิธีลาสโซ วิธีการกรองตัวแปรที่เป็นอิสระโดยการคงตัวแปรที่สำคัญ วิธีการกรองตัวแปรที่เป็นอิสระโดยการคงตัวแปรที่สำคัญด้วยค่าความสัมพันธ์ของระยะห่าง และวิธีการกรองตัวแปรด้วยการถดถอยริดจ์แบบวนซ้ำ สำหรับข้อมูลที่มีมิติสูง โดยการจำลองข้อมูลที่มีขอบเขตต่างๆ กัน โดยที่กำหนดจำนวนตัวแปรอิสระเป็น 1000 | 2000 และ 4000 ซึ่งความสัมพันธ์ของตัวแปรอิสระเป็น 0.5 และ 0.9 ทั้งนี้จะใช้ค่าความถูกต้องในการคัดกรองตัวแปร ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของจำนวนตัวแปรอิสระที่น้อยที่สุดของเซตตัวแปรอิสระที่ผ่านการคัดกรอง ที่ทำให้เซตตัวแปรอิสระที่แท้จริงเป็นสับเซตของเซตตัวแปรอิสระที่ผ่านการคัดกรอง เป็นเครื่องมือในการเปรียบเทียบและวัดประสิทธิภาพ จากการศึกษาภายใต้ขอบเขตดังกล่าวผลปรากฏว่าวิธีลาสโซ สามารถคัดกรองตัวแปรได้มีประสิทธิภาพมากที่สุด รองลงมาคือวิธีการวิเคราะห์การถดถอยพหุเชิงเส้น วิธีการกรองตัวแปรที่เป็นอิสระโดยการคงตัวแปรที่สำคัญกับวิธีการกรองตัวแปรที่เป็นอิสระโดยการคงตัวแปรที่สำคัญด้วยค่าความสัมพันธ์ของระยะห่างมีความสามารถเท่าเทียมกัน และวิธีการกรองตัวแปรด้วยการถดถอยริดจ์แบบวนซ้ำเป็นวิธีที่มีประสิทธิภาพที่น้อยที่สุด
Other Abstract (Other language abstract of ETD)
This research aims to compare the variable screening of Multiple Linear Regression Analysis | Least Absolute Shrinkage And Selection Operator (LASSO) | Sure Independence Screening (SIS) | Distance Correlation Sure Independence Screening (DC-SIS) and Iteratively Thresholded Ridge Regression Screener (ITRRS) for high dimensional data. Here we use simulation data to compare the performance of variable screening methods. we set numbers of explanatory variables are 1000 | 2000 and 4000 which the correlation among explanatory variables are 0.5 and 0.9. The performance are compared in terms of the accuracy of variable screening | mean and standard deviation of the smallest number of sets variable screening when set true variable is a subset of variable screening. In this study, we found that LASSO has the best performance followed by Multiple Linear Regression Analysis | SIS and DC-SIS have same result and ITRRS has the worst performance.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
เล็กตระกูลชัย, ทวีศักดิ์, "การเปรียบเทียบวิธีคัดกรองตัวแปรสำหรับข้อมูลที่มีมิติสูง" (2016). Chulalongkorn University Theses and Dissertations (Chula ETD). 19186.
https://digital.car.chula.ac.th/chulaetd/19186