Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Effects of tag SNP selection on gene set enrichment analysis of KEGG signalling pathways in genome-wide association studies
Year (A.D.)
2021
Document Type
Thesis
First Advisor
ประภาส จงสถิตย์วัฒนา
Second Advisor
ณชล ไชยรัตนะ
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2021.846
Abstract
วิทยานิพนธ์นี้นำเสนอการเปรียบเทียบระหว่างการวิเคราะห์บาทวิถีโดยใช้ข้อมูลสนิปทั้งหมดและข้อมูลสนิปตัวแทนจากการศึกษาความสัมพันธ์ทั้งจีโนม ชุดการวัดเปรียบเทียบสมรรถนะได้สร้างจากเจ็ดเซตข้อมูลกลุ่มกรณี-กลุ่มควบคุมจากการศึกษาความสัมพันธ์ทั้งจีโนมของเจ็ดโรคซับซ้อนโดย Wellcome Trust Case Control Consortium เจ็ดโรคซับซ้อนที่สนใจ ได้แก่ โรคอารมณ์สองขั้ว โรคหลอดเลือดแดงโคโรนารี โรคโครห์น ความดันเลือดสูง โรคข้ออักเสบรูมาตอยด์ เบาหวานชนิดที่ 1 และเบาหวานชนิดที่ 2 สนิปตัวแทนได้รับการคัดเลือกจากสนิปในตัวอย่างกลุ่มควบคุมโดยใช้ Tagger จากนั้นหนึ่งสนิปจะได้รับการคัดเลือกสำหรับใช้เป็นตัวแทนยีนโดยการหาค่าสูงสุดของค่าสถิติทดสอบแนวโน้มเอียงคอคราน-อาร์มิเทจเป็นเงื่อนไขการคัดเลือก ถึงแม้ว่ามีการคำนวณค่าสถิติทดสอบสำหรับแต่ละสนิป ค่าสถิติทดสอบสำหรับสนิปตัวแทนจะใช้เป็นค่าสถิติทดสอบสำหรับสนิปที่มีตัวแทนด้วย ส่งผลให้ข้อมูลสนิปที่มีตัวแทนไม่จำเป็นสำหรับการวิเคราะห์บาทวิถี การวิเคราะห์บาทวิถีกระทำโดยใช้ GSEA-SNP ซึ่งเป็นเทคนิคที่ได้รับการพัฒนาต่อจากเทคนิคการวิเคราะห์การได้มากขึ้นจากเซตของยีนหรือ GSEA และสามารถระบุว่า เซตของยีนในบาทวิถีสัมพันธ์กับโรคซับซ้อนหรือไม่ การวิเคราะห์บาทวิถีสนใจเฉพาะบาทวิถีการให้สัญญาณจาก Kyoto Encyclopedia of Genes and Genomes (KEGG) ดังนั้นจุดประสงค์ของการวัดเปรียบเทียบสมรรถนะคือการเปรียบเทียบสมรรถนะการระบุบาทวิถีเป้าหมายที่สัมพันธ์กับแต่ละโรคซับซ้อนจากบาทวิถีการให้สัญญาณทั้งหมด โดยรวมการวิเคราะห์บาทวิถีโดยใช้ข้อมูลสนิปทั้งหมดให้ผลการวิเคราะห์ไม่แตกต่างจากการวิเคราะห์บาทวิถีโดยใช้ข้อมูลสนิปตัวแทน ภายใต้เงื่อนไขการมีอยู่ของข้อมูลความไม่สัมพันธ์การเชื่องโยง ผลการศึกษาแสดงให้เห็นความเป็นไปได้ของการวิเคราะห์บาทวิถีโดยใช้เซตข้อมูลกลุ่มกรณี-กลุ่มควบคุมซึ่งการเก็บข้อมูลจีโนไทป์จะอาศัยสนิปตัวแทนจากการศึกษาความสัมพันธ์ทั้งจีโนม
Other Abstract (Other language abstract of ETD)
This thesis presents a comparison between pathway analysis of all single nucleotide polymorphisms (SNPs) and tag SNPs from genome-wide association studies. Seven case-control datasets from genome-wide association studies of seven complex diseases investigated by the Wellcome Trust Case Control Consortium were used to form benchmark suites. These complex diseases are bipolar disorder, coronary artery disease, Crohn’s disease, hypertension, rheumatoid arthritis, type 1 diabetes, and type 2 diabetes. Tag SNPs were selected from SNPs in the controls using Tagger. Subsequently, a SNP was chosen to represent each gene where the chosen criterion was based on the maximisation of Cochran-Armitage trend test statistics. Although Cochran-Armitage trend tests were performed on all SNPs, the test statistics of tag SNPs were also assigned to their tagged SNPs. As a result, tagged SNPs became redundant and were unnecessary in the pathway analysis. GSEA-SNP, which is an extension of gene set enrichment analysis (GSEA) and can identify whether gene sets in pathways are associated with a complex disease, was the chosen pathway analysis technique. Signalling pathways from the Kyoto Encyclopedia of Genes and Genomes (KEGG) were the main focus. Therefore, the benchmarking aimed at comparing the ability to identify target pathways associated with each complex disease among all signalling pathways. Overall, the pathway analyses of all SNPs were similar to those of tag SNPs. Under the condition of linkage disequilibrium information availability, the results suggest the possibility of generalisation to pathway analysis of existing case-control datasets that exploit tag SNPs from genome-wide association studies.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
วีรเดชกำพล, เจษฎา, "ผลของการคัดเลือกสนิปตัวแทนต่อการวิเคราะห์การได้มากขึ้นจากเซตของยีนในบาทวิถีการให้สัญญาณจากฐานข้อมูล KEGG ในการศึกษาความสัมพันธ์ทั้งจีโนม" (2021). Chulalongkorn University Theses and Dissertations (Chula ETD). 5388.
https://digital.car.chula.ac.th/chulaetd/5388