Chulalongkorn University Theses and Dissertations (Chula ETD)
การทำนายตำแหน่งสไปลไซต์โดยใช้ต้นไม้การตัดสินใจและแบบจำลองมาร์คอฟ
Other Title (Parallel Title in Other Language of ETD)
Splice site prediction using a decision tree and Markov models
Year (A.D.)
2007
Document Type
Thesis
First Advisor
ไพศาล นาคมหาชลาสินธุ์
Second Advisor
ศิริสรรพ เหล่าหะเกียรติ
Faculty/College
Faculty of Science (คณะวิทยาศาสตร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาการคณนา
DOI
10.58837/CHULA.THE.2007.913
Abstract
ในงานวิทยานิพนธ์ฉบับนี้ เราได้พัฒนาโปรแกรมทำนายตำแหน่งสไปลไซต์บนยีนของมนุษย์ โดยใช้ต้นไม้การตัดสินใจและแบบจำลองมาร์คอฟเพื่อคำนวณคะแนนที่จะใช้ตัดสินว่าลำดับนิวคลีโอไทด์ใดๆ ที่กำหนดให้มีแนวโน้มเป็นสไปลไซต์มากเพียงใด เราใช้ต้นไม้การตัดสินใจเพื่อแบ่งกลุ่มลำดับนิวคลีโอไทด์จากความขึ้นแก่กันแบบ χ² และยังใช้แบบจำลองมาร์คอฟอันดับหนึ่งเพื่อคำนวณคะแนนที่ระบุความน่าจะเป็นว่าสไปลไซต์นั้นเป็นจริงหรือเท็จ โปรแกรมนี้มีชื่อว่า “Enhanced GeneSplicer" ซึ่งได้ขยายแนวคิดของโปรแกรม GeneSplicer ด้วยการให้โอกาสแก่กลุ่มสไปลไซต์เท็จอีกครั้ง โดยจะนำมาจำแนกใหม่ และเราจะหาสิ่งที่เหมาะที่สุดของกระบวนการทั้งหมด แม้ว่าเวลาที่ใช้ในการคำนวณจะมากขึ้น แต่เราได้ความแม่นยำในการทำนายที่สูงขึ้น สำหรับค่า false negative 0.2% ในโดเนอร์ไซต์ โปรแกรมสามารถลดค่า false positive จาก 25.5% เหลือ 18.48% ในขณะที่แอกเซพเตอร์ไซต์ลดลงจาก 38.30% เหลือ 34.51%
Other Abstract (Other language abstract of ETD)
In this thesis, we will develop a splice site prediction program on human genes. The program will use decision trees and Markov models to calculate scores that can be used decide how likely a given portion on a nucleotide sequence is a splice site. Decision trees will be used to classify nucleotide sequences by the χ² dependence for each position, while the first-order Markov models compute scores that signify the probabilities of a splice site being true or false. The program is named “Enhanced GeneSplicer" as it extends the concept of the GeneSplicer program by giving a second chance to the false sites – they will be reclassified and we seek for the optimality of the whole process. Despite the increased computational time of Enhanced GeneSplicer, we obtained an improvement on the accuracy of the prediction. With 0.2% of false negatives, the percentage of false positives in donor sites drops from 25.5% to 18.48%, while that of the acceptor sites decreases from 38.30% to 34.51%.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
กาญจนสุกร์, สืบกุล, "การทำนายตำแหน่งสไปลไซต์โดยใช้ต้นไม้การตัดสินใจและแบบจำลองมาร์คอฟ" (2007). Chulalongkorn University Theses and Dissertations (Chula ETD). 58427.
https://digital.car.chula.ac.th/chulaetd/58427