Chulalongkorn University Theses and Dissertations (Chula ETD)
Advanced machine learning method for prediction of protein secondary structure
Other Title (Parallel Title in Other Language of ETD)
วิธีการขั้นสูงที่เครื่องเรียนรู้เพื่อการทำนายโครงสร้างทุติยภูมิของโปรตีน
Year (A.D.)
2005
Document Type
Thesis
First Advisor
Chidchanok Lursinsap
Faculty/College
Faculty of Science (คณะวิทยาศาสตร์)
Degree Name
Doctor of Philosophy
Degree Level
Doctoral Degree
Degree Discipline
Computer Science
DOI
10.58837/CHULA.THE.2005.1024
Abstract
A new method based on Markov process to encode the protein sequences has been introduced. With this simple method, input vectors that contain the essential features of protein sequence can be extracted and efficiently used to train SVM classifiers. Our method achieved the remarkable result that out-performs other advanced methods at present. Using a seven-folded cross validation on the data set of 513 non-homologous protein chains (CB513), the SVM together with Markov transition matrix encoding scheme produces a three-state overall per-residue accuracy(Q3) of 82.49 percent and a segment overlap accuracy(SOV) of 77.18 percent. That is the next improving step to reach the theoretical limitation.
Other Abstract (Other language abstract of ETD)
วิทยานิพนธ์ฉบับนี้ได้นำเสนอวิธีการใหม่ในการเข้ารหัสลำดับอะมิโนแอซิดของโปรตีนโดยใช้วิธีการของมาคอล์ฟโปรเซส ด้วยเทคนิคนี้ ลักษณะเด่นที่สำคัญของลำดับสายโปรตีนจะถูกสกัดออกและนำไปใช้สร้างชุดของเวคเตอร์สำหรับเป็นข้อมูลในการสอนเพื่อการจำแนกประเภทด้วยซัพพอร์ตเวคเตอร์แมชชีน (SVM) ได้อย่างมีประสิทธิภาพ วิธีการที่ใช้ในงานวิจัยนี้ให้ผลลัพธ์ที่โดดเด่นกว่าวิธีการอื่นๆ ที่มีในปัจจุบันเป็นอย่างมาก ด้วยวิธีการจำแนกประเภทโดยใช้ SVM ร่วมกับวิธีการเข้ารหัสของข้อมูลโดยใช้มาคอฟทรานสิชั่นเมตริกสามารถวัดค่าความถูกต้องในการจำแนกแบบสามกลุ่มได้ดังนี้คือ Q3 = 82.49%, SOV = 77.18% โดยการประเมินจากกลุ่มข้อมูลทดสอบมาตรฐานของโปรตีนจำนวน 513 สาย (CB513) ซึ่งผลที่ได้นับว่าเป็นการพัฒนาเข้าใกล้ขีดจำกัดทางทฤษฎีได้อีกขั้นหนึ่ง
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Kuphanumat, Kasemsant, "Advanced machine learning method for prediction of protein secondary structure" (2005). Chulalongkorn University Theses and Dissertations (Chula ETD). 56602.
https://digital.car.chula.ac.th/chulaetd/56602