Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A bioinformatics tool for structural variant detection

Year (A.D.)

2019

Document Type

Thesis

First Advisor

ดวงดาว วิชาดากุล

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2019.1142

Abstract

การแปรผันเชิงโครงสร้างทางพันธุกรรมคือการเปลี่ยนแปลงลำดับเบสของจีโนมที่ครอบคลุมบริเวณกว้าง การแปรผันเชิงโครงสร้างเหล่านี้มีโอกาสที่จะเกี่ยวข้องกับการเกิดโรค ดังนั้นการตรวจหาการแปรผันเชิงโครงสร้างจึงเป็นปัจจัยหนึ่งที่สำคัญในการหาสาเหตุของโรค อย่างไรก็ตามเครื่องมือสำหรับตรวจหาการแปรผันเชิงโครงสร้างที่มีอยู่มีประสิทธิภาพแตกต่างกันไปในการตรวจหาการแปรผันเชิงโครงสร้างแต่ละประเภท รวมทั้งไม่สามารถตรวจหาการแปรผันได้ครอบคลุมในตำแหน่งส่วนใหญ่ที่ได้ยืนยันจากการทดลองในห้องปฏิบัติการ วิทยานิพนธ์ฉบับนี้นำเสนอวิธีการทางคอมพิวเตอร์เพื่อตรวจหาการแปรผันเชิงโครงสร้างที่เน้นการเพิ่มประสิทธิภาพความครอบคลุม โดยพยายามรักษาความแม่นยำของการแปรผันเชิงโครงสร้างที่ตรวจพบผ่านการวิเคราะห์คู่รีด การแตกรีด และการนับรีด เพื่อรวบรวมหลักฐานที่แสดงความเป็นไปได้ในการเกิดการแปรผันเชิงโครงสร้างแต่ละประเภทในแต่ละบริเวณของจีโนม และนำเสนอวิธีการคัดกรองเบรกเอ็นด์ที่แสดงถึงตำแหน่งเริ่มต้นและตำแหน่งสิ้นสุดของการเกิดการแปรผันประเภทต่างๆ วิธีการกรองจะทำการแบ่งตัวอย่างเป็นบล็อกๆ ข้อมูลของบล็อกประกอบไปด้วย จำนวนรีดที่แมพได้ในบล็อกนั้นและจำนวนการแปรผันเชิงโครงสร้างของแต่ละประเภทภายในบล็อก การคัดกรองเบรกเอ็นด์จะอาศัยข้อมูลทั้งจากบล็อกที่เบรกเอ็นด์อยู่และบล็อกที่อยู่ติดกัน ผลลัพธ์จากการเปรียบเทียบประสิทธิภาพของวิธีการที่นำเสนอกับ SvABA DELLY GROM LUMPY และ Wham พบว่าวิธีการที่นำเสนอได้ผลลัพธ์ดีกว่าเครื่องมืออื่นๆ ในส่วนของความแม่นยำในการตรวจหาลำดับเบสที่เกิดความซ้ำเป็นชุดติดๆกันและลำดับเบสที่เกิดการกลับด้าน และความครบถ้วนในส่วนของการตรวจหาลำดับเบสที่ถูกเพิ่มเข้ามาสำหรับชุดข้อมูลจริง NA12878 และ HG00514 ที่ใช้ในการทดสอบ

Other Abstract (Other language abstract of ETD)

Genomic structural variations (SVs) represent large genomic alterations and have been reported to be associated with diseases. The detection of structural variations is an important approach for investigating the cause of diseases. While several tools for detecting structural variations are available, they achieved varied performance for each type of the variation. Moreover, many experimentally verified variations were still uncaught by these tools. This thesis proposes a computational method for SV detection aiming to increase the coverage while maintaining the precision. The method incorporated the read-pair, split-read, and read count analyses to compile the evidence for each SV type. To filter the potential breakends, the starting and ending positions of a SV, the genome was divided into blocks containing the read coverage and the number of detected SVs of each type. Our method then considers the data of a block suggested with a breakend position and the data of its adjacent blocks for breakend filtering. Based on two real datasets NA12878 and HG00514, our method outperformed SvABA, DELLY, GROM, LUMPY, and Wham in term of precision for detecting tandem duplication and inversion and got the highest recall for detecting insertion while maintaining the comparable precision.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.