Chulalongkorn University Theses and Dissertations (Chula ETD)

การทำนายตำแหน่งสไปลไซต์โดยใช้ต้นไม้การตัดสินใจและแบบจำลองมาร์คอฟ

Other Title (Parallel Title in Other Language of ETD)

Splice site prediction using a decision tree and Markov models

Year (A.D.)

2007

Document Type

Thesis

First Advisor

ไพศาล นาคมหาชลาสินธุ์

Second Advisor

ศิริสรรพ เหล่าหะเกียรติ

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาการคณนา

DOI

10.58837/CHULA.THE.2007.913

Abstract

ในงานวิทยานิพนธ์ฉบับนี้ เราได้พัฒนาโปรแกรมทำนายตำแหน่งสไปลไซต์บนยีนของมนุษย์ โดยใช้ต้นไม้การตัดสินใจและแบบจำลองมาร์คอฟเพื่อคำนวณคะแนนที่จะใช้ตัดสินว่าลำดับนิวคลีโอไทด์ใดๆ ที่กำหนดให้มีแนวโน้มเป็นสไปลไซต์มากเพียงใด เราใช้ต้นไม้การตัดสินใจเพื่อแบ่งกลุ่มลำดับนิวคลีโอไทด์จากความขึ้นแก่กันแบบ χ² และยังใช้แบบจำลองมาร์คอฟอันดับหนึ่งเพื่อคำนวณคะแนนที่ระบุความน่าจะเป็นว่าสไปลไซต์นั้นเป็นจริงหรือเท็จ โปรแกรมนี้มีชื่อว่า “Enhanced GeneSplicer" ซึ่งได้ขยายแนวคิดของโปรแกรม GeneSplicer ด้วยการให้โอกาสแก่กลุ่มสไปลไซต์เท็จอีกครั้ง โดยจะนำมาจำแนกใหม่ และเราจะหาสิ่งที่เหมาะที่สุดของกระบวนการทั้งหมด แม้ว่าเวลาที่ใช้ในการคำนวณจะมากขึ้น แต่เราได้ความแม่นยำในการทำนายที่สูงขึ้น สำหรับค่า false negative 0.2% ในโดเนอร์ไซต์ โปรแกรมสามารถลดค่า false positive จาก 25.5% เหลือ 18.48% ในขณะที่แอกเซพเตอร์ไซต์ลดลงจาก 38.30% เหลือ 34.51%

Other Abstract (Other language abstract of ETD)

In this thesis, we will develop a splice site prediction program on human genes. The program will use decision trees and Markov models to calculate scores that can be used decide how likely a given portion on a nucleotide sequence is a splice site. Decision trees will be used to classify nucleotide sequences by the χ² dependence for each position, while the first-order Markov models compute scores that signify the probabilities of a splice site being true or false. The program is named “Enhanced GeneSplicer" as it extends the concept of the GeneSplicer program by giving a second chance to the false sites – they will be reclassified and we seek for the optimality of the whole process. Despite the increased computational time of Enhanced GeneSplicer, we obtained an improvement on the accuracy of the prediction. With 0.2% of false negatives, the percentage of false positives in donor sites drops from 25.5% to 18.48%, while that of the acceptor sites decreases from 38.30% to 34.51%.

Share

COinS