Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Incorporating a directed graph in bayesian variable selection for a high-dimensional regression model
Year (A.D.)
2024
Document Type
Thesis
First Advisor
วิฐรา พึ่งพาพงศ์
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2024.131
Abstract
การคัดเลือกตัวแปรสำหรับข้อมูลทางพันธุศาสตร์ เป็นการคัดเลือกยีนเพียงจำนวนหนึ่งที่คาดว่าจะมีความสัมพันธ์กับฟีโนไทป์ที่สนใจ เนื่องจากโดยทั่วไปยีนแต่ละตัวมีจะความสัมพันธ์กัน งานวิจัยนี้เสนอวิธีการใช้การแจกแจงก่อนแบบ Ising (Ising Prior) สำหรับนำกราฟแบบมีทิศทาง (Directed Graph) มาร่วมในการประมาณค่าสัมประสิทธิ์การถดถอยที่มีมิติสูงและคัดเลือกตัวแปร ซึ่งงานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาการนำกราฟแบบมีทิศทางมาใช้ในการคัดเลือกตัวแปรและประมาณค่าสัมประสิทธิ์การถดถอยที่มีมิติสูง และ เปรียบเทียบประสิทธิภาพในการคัดเลือกตัวแปรเข้าตัวแบบของวิธีที่นำเสนอซึ่งใช้กราฟแบบมีทิศทาง กับวิธีที่ใช้กราฟแบบไม่มีทิศทาง และ ตัวแบบการถดถอยเชิงเส้นแบบเบส์ และ วิธีการถดถอยลาสโซ ในงานวิจัยนี้ใช้ข้อมูลจริง Gene Expression ทำการทดสอบ 8 กรณี โดยมีขนาดตัวอย่าง เท่ากับ 200 จำนวนตัวแปรอิสระเท่ากับ 2000 และ 5000 ตามลำดับ ภายใต้สัมประสิทธิ์การถดถอย 2 กรณี จากยีน 10 โครงข่าย และอัตราส่วนสัญญาณต่อสัญญาณรบกวนเท่ากับ 1 และ 3 ตามลำดับ โดยทำซ้ำแต่ละกรณีจำนวน 100 ครั้ง ในการศึกษานี้มุ่งเน้นประสิทธิภาพในการคัดเลือกตัวแปรของตัวแบบและเปรียบเทียบประสิทธิภาพการคัดเลือกตัวแปรในแต่ละตัวแบบ ซึ่งเปรียบเทียบด้วยค่าความแม่นยำ (Precision) ค่าความระลึก (Recall) ค่าความจำเพาะ(Specificity) อัตราความผิดพลาดในการตรวจจับเชิงบวก (False Positive Rate) และอัตราความผิดพลาดในการตรวจจับเชิงลบ (False Negative Rate) พบว่า วิธีการนำกราฟแบบมีทิศทางมาใช้ในการคัดเลือกตัวแปรสามารถคัดเลือกตัวแปรเข้าตัวแบบและประมาณค่าสัมประสิทธิ์การถดถอยได้แม่นยำสำหรับกรณีที่สัมประสิทธิ์การถดถอยบางตัวในโครงข่ายไม่เท่ากับศูนย์ และให้ค่าความจำเพาะสูงสุด นอกจากนี้สามารถคัดเลือกตัวแปรที่ไม่เกี่ยวข้องเข้าตัวแบบน้อยที่สุด เพราะฉะนั้น วิธีการนำกราฟแบบมีทิศทางมาใช้ในการคัดเลือกตัวแปรมีประสิทธิภาพในการคัดเลือกยีนที่เหมาะสมเข้าตัวแบบในกรณีที่กำหนดให้ยีนบางตัวในโครงข่ายไม่เท่ากับศูนย์ได้ดีกว่าวิธีอื่น และ ยังมีความสามารถในคัดเลือกยีนที่ไม่มีความสัมพันธ์กับฟีโนไทป์เข้าตัวแบบน้อยที่สุดอีกด้วย
Other Abstract (Other language abstract of ETD)
The selection of variables for genetic data in genetics involves selecting a subset of genes that are expected to be related to the phenotype of interest. Since genes generally exhibit interrelationships, this research proposes the use of the Ising Prior distribution to incorporate directed graphs into the estimation of high-dimensional regression coefficients and variable selection. The objective is to investigate the use of directed graphs for variable selection and estimation of regression coefficients in high dimensions and to compare the performance of variable selection methods using directed graphs with those using undirected graphs, the Bayesian linear regression model, and the Lasso regression method. This study utilizes real gene expression data and tests eight scenarios with sample sizes of 200 and 2000, 5000 independent variables, respectively, with 100 repetitions for each case. Under two regression coefficients scenarios from 10 genes and signal-to-noise ratios of 1 and 3, respectively, the study focuses on the efficiency of variable selection models and compares their performance in terms of Precision, Recall, Specificity, False Positive Rate, and False Negative Rate. It was found that the method of using directed graphs for variable selection can accurately select variables and estimate regression coefficients, especially when some regression coefficients in the network are not equal to zero, providing maximum specificity. Additionally, it can select the least relevant variables into the model efficiently. Therefore, the method of using directed graphs for variable selection is effective in selecting appropriate genes into the model, especially when some genes in the network are non-zero, and it also has the ability to select genes unrelated to the phenotype into the model with minimal impact.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ประทานทรัพย์, บุษราคัม, "การใช้กราฟแบบมีทิศทางในการคัดเลือกตัวแปรแบบเบส์สำหรับตัวแบบการถดถอยเชิงเส้นที่มีมิติสูง" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 11263.
https://digital.car.chula.ac.th/chulaetd/11263