Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การศึกษาลักษณะทางพันธุกรรมของมนุษย์ในประชากรไทยจากโครงการวิจัยบรูกาดา

Year (A.D.)

2022

Document Type

Thesis

First Advisor

Yong Poovorawan

Faculty/College

Graduate School (บัณฑิตวิทยาลัย)

Degree Name

Doctor of Philosophy

Degree Level

Doctoral Degree

Degree Discipline

Biomedical Sciences

DOI

10.58837/CHULA.THE.2022.1063

Abstract

Human genomic research has been concentrated in populations of European descent resulted in large portion of the global populations, including Thais, underrepresented. The bias in representation limited transferability of genetics findings to understudied populations and exacerbate health disparities. This study aims to examine medically relevant genetic variation in Thai population uses whole genome sequences. The study examined prevalence of pharmacogenomics variants (part I), variant associated with autosomal recessive disorder (part II) and risk alleles recently identified to associate with severe COVID-19 infection symptoms (part III). The study further examined the effect of genetic variation in Thais on reference panel selection for genotype imputation (part IV). In pharmacogenomics, over 25% of Thais carried a high-risk diplotype in CYP3A5, CYP2C19, CYP2D6, NAT2, SLCO1B1, and UGT1A1 genes. Allele frequencies of CYP3A5*3 (rs776746), CYP2B6*6 (rs2279343), and NAT2 (rs1041983) were significantly higher in Thais than East-Asian and global populations. 121 variants, which is unreported, have potential to exert clinical impact, majority were rare and population-specific, with 60.3% of variants absent from gnomAD database. In examining variants associated with autosomal recessive disorder, 263 likely pathogenic/pathogenic variants were identified with 6 well-established pathogenic variants have carrier rate of higher than 0.01. Analysis of variant distribution based on genetics structure shows significant enrichment of pathogenic variants associated with thalassemia, galactosaemic and deafness in some subpopulation. When examined prevalence of severe COVID-19 risk alleles, the frequency of risk allele at 3p21.31 locus, which was highly correlated with disease severity and replicated in multiple studies, found to differs vastly among Southeast Asians. Allele frequencies ranging from 0.21 in the Filipino population to 0.06 in the Thai population and are extremely rare in Northeast Asians. Lastly, the choice of reference panel showed to strongly affect imputation performance. While imputation using the TOPMed panel yielded the largest number of variants (~271 million), GenomeAsia 100K achieved the best imputation accuracy with a median genotype concordance rate of 0.97. GenomeAsia 100K also offered the best accuracy for rare variants with 30.3% reduction in concordance rates. In conclusion, this study reports genetic variations in Thai that are clinically relevance in different fields of medical science. This study findings provide an essential information that have wide range of application from the design of genetic testing through to conducting genomic research. In addition to the prevalence of multiple variants in Thai found to differ from other global populations, large number of the variants identified are population-specifics. This stresses the importance of constructing Thai genetic database with larger sample size to enable a better understanding of low frequencies and rare variants in the population that often exert higher clinical impact.

Other Abstract (Other language abstract of ETD)

งานวิจัยทางพันธุกรรมของมนุษย์ส่วนใหญ่ศึกษาในประชากรที่มีลักษณะทางเชื้อชาติจากทวีปยุโรป จึงส่งผลให้ข้อมูลทางพันธุกรรมในประชากรอื่นรวมถึงประชากรไทยมีจำนวลจำกัด ส่งผลให้บางครั้งไม่สามารถผลที่ได้จากงานวิจัยทางพันธุศาสตร์ในประชากรยุโรปมาใช้ในประชากรอื่นเนื่องจากความหลากหลายทางพันธุกรรมที่แตกต่างกัน งานวิจัยนี้จึงศึกษาความหลากหลายทางพันธุกรรมที่พบในประชากรไทยโดยใช้ whole genome sequences (ส่วนที่ 1) เริ่มจากความหลากหลายทางพันธุกรรมที่ส่งผลต่อการใช้ยาหรือ pharmacogenomics (ส่วนที่ 2) ความหลากหลายทางพันธุกรรมที่เกี่ยวข้องกันโรค autosomal recessive และ(ส่วนที่ 3) ความหลากหลายทางพันธุกรรมที่มีรายงานว่าเกี่ยวข้องกับความรุนแรงจากติดเชื้อ COVID-19 นอกจากนี้ (ส่วนที่ 4) ยังได้ศึกษาผลกระทบของความหลากหลายทางพันธุกรรมต่อการเลือก reference panel ที่ใช้ในการคาดการณ์ genotype หรือimputation ในส่วนที่ 1 ผลการศึกษาพบว่าในยีน CYP3A5, CYP2C19, CYP2D6, NAT2, SLCO1B1, และ UGT1A1 มี diplotype ทีส่งผลต่อการตอบสนองต่อยาที่ผิดปกติมากกว่า 25% ของประชากรไทย รวมถึงยังพบ variant CYP3A5*3 (rs776746), CYP2B6*6 (rs2279343), และ NAT2 (rs1041983) มากกว่าในคนไทยเมื่อเทียบกับชาวตะวันออกและประชากรโลกในฐานข้อมูล GnomAD อย่างมีนัยสำคัญ การศึกษายังพบอีกว่ามี 121 variants ที่ยังไม่เคยมีรายงานแต่ผลวิเคราะห์ชี้ว่าน่าจะส่งผลต่อการการทำงานของโปรตีน โดย 60.3% ของ variant ในกลุ่มนี้ไม่มีรายงานในฐานข้อมูลประชากร gnomAD ใน (ส่วนที่ 2) การศึกษาความหลากหลายทางพันธุกรรมที่เกี่ยวข้องกันโรค autosomal recessive พบว่ามี 263 variants ที่เคยรายงานว่าสามารถก่อให้เกิดโรค โดย 6 variant พบว่ามีผู้ที่เป็นพาหะมากถึง 1% ของประชากรไทย การวิเคราะห์การกระจายตัวของ variants กลุ่มนี้ในประชากรไทยโดยการทำ fine-scale genetic structure analysis พบว่ามีความชุกของผู้เป็นพาหะของโรคธาลัสซีเมีย โรคแกลคโทซีเมีย และ โรคหูหนวกในบางกลุ่มของประชากรไทยจากการศึกษา (ส่วนที่ 3) ความหลากหลายทางพันธุกรรมที่มีรายงานว่าเกี่ยวข้องกับความรุนแรงจากติดเชื้อ COVID-19 พบว่า variant ที่ chromosome 3p21.31 ซึ่งมีความสัมพันธ์สูงกับความรุนแรงของโรคและได้รับการรับรองในหลายการศึกษามีความชุกที่แตกต่างกันในแต่ละประเทศในภูมิภาคเอเชียตะวันออกเฉียงใต้ โดยพบในชาวฟิลิปปินส์ที่ความชุก 0.21 แต่พบแค่ 0.06 ในประชากรไทยและแทบไม่พบเลยในประชากรเอเชียตะวันออกเฉียงเหนือ จากศึกษา(ส่วนที่ 4) ผลกระทบของความหลากหลายทางพันธุกรรมในชาวไทยต่อการเลือก reference panel ใน genotype imputation พบว่า reference panel ที่แตกต่างกันสงผลต่อประสิทธิภาพในการคาดการณ์ โดย TOPMed สามารถคาดการณ์ variants ได้มากที่สุด (~271 ล้าน) ในขนาดที่ GenomeAsia 100K มีความแม่นยำในการคาดการณ์ที่สุด(0.97) ถึงแม้ความแม่นยำลดลงถึง 30.3% ในกลุ่ม rare variants แต่ GenomeAsia 100K ยังให้ความแม่นยำที่สูงกว่า reference panel อื่น ผลจากการศึกษาทั้งหมดนี้แสดงถึงความหลากหลายและความแตกต่างทางพันธุกรรมในประชากรไทยเมื่อเปรียบกับประชากรอื่นในฐานข้อมูล โดยข้อมูลที่ได้จากการศึกษานี้สามารถนำไปใช้เป็นแนวทางการออกแบบการตรวจพันธุกรรมและการออกแบบงานวิจัยเชิงพันธุกรรมในประชากรไทย ถึงแม้ขนาดของตัวอย่างที่ใช้ในงานวิจัยนี้จะมีจำนวลจำกัดเมื่อเทียบกับฐานข้อมูลอื่น แต่พบ variant จำนวนมากมีลักษณะเฉพาะในกลุ่มประชากรไทย แสดงให้เห็นถึงความสำคัญของการจัดตั้งฐานข้อมูลทางพันธุกรรม ของประชากรไทย

Included in

Diseases Commons

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.