Chulalongkorn University Theses and Dissertations (Chula ETD)

การจำลองแบบการประกอบของจีโนมไวรัสกึ่งสปีชีส์หลายเส้น ด้วยเทคโนโลยีการอ่านลำดับนิวคลีโอไทด์แบบขนานจำนวนมาก

Other Title (Parallel Title in Other Language of ETD)

Assembling simulation of multiple viral quasispecies genomes from massively parallel sequencing technique

Year (A.D.)

2008

Document Type

Thesis

First Advisor

ประภาส จงสถิตย์วัฒนา

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2008.1417

Abstract

วิทยานิพนธ์นี้เสนอวิธีการประกอบชุดของแฮปโพลไทป์และประมาณค่าความถี่ แฮปโพลไทป์ของสิ่งมีชีวิตกึ่งสปีชีส์ด้วยข้อมูลที่อ่านได้จากเทคโนโลยีอ่านลำดับนิวคลีโอไทด์แบบขนานจำนวนมาก โดยมุ่งศึกษาแฮปโพลไทป์ของไวรัสเด็งกี่ จากข้อมูลที่ได้จากเครื่องอ่านลำดับเบส Roche GS FLX โดยในงานวิจัยนี้ได้เสนอวิธีประกอบแฮปโพลไทป์สายหลักซึ่งเป็น แฮปโพลไทป์ที่มีความถี่สูงสุด โดยวิธีที่ให้ประสิทธิภาพสูงคือ วิธีประกอบแฮปโพลไทป์ด้วย อัลลีลที่มีความถี่สูงสุดในแต่ละตำแหน่งและวิธีประกอบแฮปโพลไทป์ด้วยสายลำดับที่อ่านได้ที่มีความถี่สูงสุดแบบสุ่มตำแหน่ง แฮปโพลไทป์ที่ประกอบขึ้นมีความแม่นเฉลี่ยร้อยละ 92.07 และ 90.05 ตามลำดับ โดยมีความผิดพลาดสัมบูรณ์ของความถี่แฮปโพลไทป์เป็นร้อยละ 7.19 และ 1.54 ตามลำดับ วิธีประกอบแฮปโพลไทป์สายหลักนี้ นำไปประยุกต์ใช้กับการประกอบแฮปโพลไทป์ในลำดับถัดไป โดยประกอบแฮปโพลไทป์สายหลักทีละเส้น แล้วกรองข้อมูลที่คาดว่ามาจาก แฮปโพลไทป์สายหลักทิ้ง นำข้อมูลที่เหลือมาประกอบแฮปโพลไทป์ลำดับถัดไป ทำซ้ำเช่นนี้จนกว่าจะได้แฮปโพลท์ตามที่กำหนด วิธีประกอบชุดของแฮปโพลไทป์นี้ให้ความแม่นเฉลี่ยร้อยละ 69.79 และมีความแม่นเฉลี่ยสูงสุดในชุดข้อมูลที่ประกอบด้วยสายลำดับ 100,000 เส้น และความถี่ของสายลำดับหลักอยู่ในช่วงร้อยละ 90-99 ชุดของแฮปโพลไทป์ที่ประกอบขึ้นจากชุดข้อมูลนี้มีความแม่นเฉลี่ยร้อยละ 94.99 เปรียบเทียบความแม่นของวิธีที่นำเสนอกับวิธีที่ใช้ในโปรแกรมสำเร็จ ShoRAH พบว่าวิธีที่นำเสนอให้ความแม่นสูงกว่าสำหรับชุดข้อมูลที่จำลองขึ้นจากจีโนมของไวรัสเด็งกี่นี้

Other Abstract (Other language abstract of ETD)

The goal of this study is to reconstruct haplotypes of dengue virus and estimate haplotype frequency of each haplotype from simulated DNA fragments obtained from massively parallel sequencing technique, focused on Roche GS FLX sequencer. Firstly, we try to reconstruct the major haplotype of dengue population and propose two main methods, reconstruction using major alleles and reconstruction using the highest frequency read of each position. These methods provide averages of 92.07% and 90.05% accuracy respectively for major sequences and provide average of 7.19% and 1.54% absolute error for estimated frequencies. After that, we apply the method of major haplotype reconstruction to reconstruct the whole set of haplotypes. After reconstructing the major haplotype, we discard data obtained from this major haplotype and use the remains as input for reconstructing the next haplotype. This method provides an average of 69.79% accuracy of whole sets of haplotypes and a maximum of 94.99%. When looking at the performance of this proposed method in comparison with that of the method used by software package ShoRAH, the proposed method provides higher accuracy on this test data simulated from dengue genome.

Share

COinS