Chulalongkorn University Theses and Dissertations (Chula ETD)
Statistical feature selection from chaos game representation for promoter recognition
Other Title (Parallel Title in Other Language of ETD)
การรู้จำโปรโมเตอร์โดยใช้เทคนิคการเลือกด้วยวิธีทางสถิติจากแทนด้วยเคออสเกมส์
Year (A.D.)
2005
Document Type
Thesis
First Advisor
Chidchanok Lursinsap
Faculty/College
Faculty of Science (คณะวิทยาศาสตร์)
Degree Name
Doctor of Philosophy
Degree Level
Doctoral Degree
Degree Discipline
Computer Science
DOI
10.58837/CHULA.THE.2005.1025
Abstract
Recently, the recognition of promoters has attracted many researchers’ attention. Unfortunately, most previous prediction algorithms did not provide high enough sensitivity and specificity. The aim of this dissertation is to provide a distinct classification between Promoter and non-promoter sequences. We do not consider some well-known patterns around TSS, such as TATAAT-box and TTGACA-box, which were previously used by many researchers. The accuracy of promoter prediction is based on two factors, i.e., the representation of the given DNA sequence and the essential features of the sequence. A Chaos Game Representation (CSR) is adopted for transforming a DNA sequence having promoters and non-promoters into an image. The essential features of the CGR are selected by applying the concept of statistical feature selection. It is aimed at finding the Smallest set of features that can distinguish the classes over the full set and reduce the dimension of the classifier. Recognition can then be performed by a supervised neural network. The method in this dissertation can be applied to both prokaryotic and eukaryotic Organisms.
Other Abstract (Other language abstract of ETD)
ปัญหาการรู้จำโปรโมเตอร์เป็นที่สนใจของนักวิจัยในปัจจุบันแต่อัลกอริทึมที่มีอยู่ก็ยังให้ผลการทดลองที่ไม่ดีพอดังนั้นเป้าหมายของวิทยานิพนธ์นี้คือการพัฒนาอัลกอริทึมที่สามารถแยกความแตกต่างระหว่างลำดับดีเอ็นเอที่เป็นโปรโมเตอร์และไม่ใช่โปรโมเตอร์ออกให้ได้โดยไม่ได้เอารูปแบบที่มีอยู่ก่อนหน้าเช่น TATAAT-box และ TIGACA-box มาพิจารณาความถูกต้องของการทำนายโปรโมเตอร์ขึ้นอยู่กับปัจจัย 2 ประการคือการแทนลำดับดีเอ็นเอและการเลือกคุณลักษณะที่สำคัญหลักการคือการใช้เทคนิค Chaos Game Representation มาช่วยในการแปลงสำดับดีเอ็นเอซึ่งประกอบด้วยโปรโมเตอร์และไม่ใช่โปรโมเตอร์ให้เป็นภาพเพื่อที่จะเห็นรูปแบบได้ชัดเจนมากขึ้นจากนั้นจะทำการเลือกคุณสมบัติที่สำคัญที่ทำให้มีความแตกต่างกันมากที่สุดออกมาโดยใช้วิธีการเลือกทางสถิติจุดประสงค์เพื่อลดขนาดของข้อมูลให้เล็กลงเพื่อให้โครงข่ายประสาทเทียมทำการรู้จำวิธีการในงานวิจัยนี้สามารถใช้ได้ทั้งสิ่งมีชีวิตเซลล์เดียวและหลายเซลล์
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Tinnungwattana, Orawan, "Statistical feature selection from chaos game representation for promoter recognition" (2005). Chulalongkorn University Theses and Dissertations (Chula ETD). 56603.
https://digital.car.chula.ac.th/chulaetd/56603