Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Incorporating a directed graph in bayesian variable selection for a high-dimensional regression model

Year (A.D.)

2024

Document Type

Thesis

First Advisor

วิฐรา พึ่งพาพงศ์

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2024.131

Abstract

การคัดเลือกตัวแปรสำหรับข้อมูลทางพันธุศาสตร์ เป็นการคัดเลือกยีนเพียงจำนวนหนึ่งที่คาดว่าจะมีความสัมพันธ์กับฟีโนไทป์ที่สนใจ เนื่องจากโดยทั่วไปยีนแต่ละตัวมีจะความสัมพันธ์กัน งานวิจัยนี้เสนอวิธีการใช้การแจกแจงก่อนแบบ Ising (Ising Prior) สำหรับนำกราฟแบบมีทิศทาง (Directed Graph) มาร่วมในการประมาณค่าสัมประสิทธิ์การถดถอยที่มีมิติสูงและคัดเลือกตัวแปร ซึ่งงานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาการนำกราฟแบบมีทิศทางมาใช้ในการคัดเลือกตัวแปรและประมาณค่าสัมประสิทธิ์การถดถอยที่มีมิติสูง และ เปรียบเทียบประสิทธิภาพในการคัดเลือกตัวแปรเข้าตัวแบบของวิธีที่นำเสนอซึ่งใช้กราฟแบบมีทิศทาง กับวิธีที่ใช้กราฟแบบไม่มีทิศทาง และ ตัวแบบการถดถอยเชิงเส้นแบบเบส์ และ วิธีการถดถอยลาสโซ ในงานวิจัยนี้ใช้ข้อมูลจริง Gene Expression ทำการทดสอบ 8 กรณี โดยมีขนาดตัวอย่าง เท่ากับ 200 จำนวนตัวแปรอิสระเท่ากับ 2000 และ 5000 ตามลำดับ ภายใต้สัมประสิทธิ์การถดถอย 2 กรณี จากยีน 10 โครงข่าย และอัตราส่วนสัญญาณต่อสัญญาณรบกวนเท่ากับ 1 และ 3 ตามลำดับ โดยทำซ้ำแต่ละกรณีจำนวน 100 ครั้ง ในการศึกษานี้มุ่งเน้นประสิทธิภาพในการคัดเลือกตัวแปรของตัวแบบและเปรียบเทียบประสิทธิภาพการคัดเลือกตัวแปรในแต่ละตัวแบบ ซึ่งเปรียบเทียบด้วยค่าความแม่นยำ (Precision) ค่าความระลึก (Recall) ค่าความจำเพาะ(Specificity) อัตราความผิดพลาดในการตรวจจับเชิงบวก (False Positive Rate) และอัตราความผิดพลาดในการตรวจจับเชิงลบ (False Negative Rate) พบว่า วิธีการนำกราฟแบบมีทิศทางมาใช้ในการคัดเลือกตัวแปรสามารถคัดเลือกตัวแปรเข้าตัวแบบและประมาณค่าสัมประสิทธิ์การถดถอยได้แม่นยำสำหรับกรณีที่สัมประสิทธิ์การถดถอยบางตัวในโครงข่ายไม่เท่ากับศูนย์ และให้ค่าความจำเพาะสูงสุด นอกจากนี้สามารถคัดเลือกตัวแปรที่ไม่เกี่ยวข้องเข้าตัวแบบน้อยที่สุด เพราะฉะนั้น วิธีการนำกราฟแบบมีทิศทางมาใช้ในการคัดเลือกตัวแปรมีประสิทธิภาพในการคัดเลือกยีนที่เหมาะสมเข้าตัวแบบในกรณีที่กำหนดให้ยีนบางตัวในโครงข่ายไม่เท่ากับศูนย์ได้ดีกว่าวิธีอื่น และ ยังมีความสามารถในคัดเลือกยีนที่ไม่มีความสัมพันธ์กับฟีโนไทป์เข้าตัวแบบน้อยที่สุดอีกด้วย

Other Abstract (Other language abstract of ETD)

The selection of variables for genetic data in genetics involves selecting a subset of genes that are expected to be related to the phenotype of interest. Since genes generally exhibit interrelationships, this research proposes the use of the Ising Prior distribution to incorporate directed graphs into the estimation of high-dimensional regression coefficients and variable selection. The objective is to investigate the use of directed graphs for variable selection and estimation of regression coefficients in high dimensions and to compare the performance of variable selection methods using directed graphs with those using undirected graphs, the Bayesian linear regression model, and the Lasso regression method. This study utilizes real gene expression data and tests eight scenarios with sample sizes of 200 and 2000, 5000 independent variables, respectively, with 100 repetitions for each case. Under two regression coefficients scenarios from 10 genes and signal-to-noise ratios of 1 and 3, respectively, the study focuses on the efficiency of variable selection models and compares their performance in terms of Precision, Recall, Specificity, False Positive Rate, and False Negative Rate. It was found that the method of using directed graphs for variable selection can accurately select variables and estimate regression coefficients, especially when some regression coefficients in the network are not equal to zero, providing maximum specificity. Additionally, it can select the least relevant variables into the model efficiently. Therefore, the method of using directed graphs for variable selection is effective in selecting appropriate genes into the model, especially when some genes in the network are non-zero, and it also has the ability to select genes unrelated to the phenotype into the model with minimal impact.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.