Chulalongkorn University Theses and Dissertations (Chula ETD)

Advanced machine learning method for prediction of protein secondary structure

Other Title (Parallel Title in Other Language of ETD)

วิธีการขั้นสูงที่เครื่องเรียนรู้เพื่อการทำนายโครงสร้างทุติยภูมิของโปรตีน

Year (A.D.)

2005

Document Type

Thesis

First Advisor

Chidchanok Lursinsap

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Degree Name

Doctor of Philosophy

Degree Level

Doctoral Degree

Degree Discipline

Computer Science

DOI

10.58837/CHULA.THE.2005.1024

Abstract

A new method based on Markov process to encode the protein sequences has been introduced. With this simple method, input vectors that contain the essential features of protein sequence can be extracted and efficiently used to train SVM classifiers. Our method achieved the remarkable result that out-performs other advanced methods at present. Using a seven-folded cross validation on the data set of 513 non-homologous protein chains (CB513), the SVM together with Markov transition matrix encoding scheme produces a three-state overall per-residue accuracy(Q3) of 82.49 percent and a segment overlap accuracy(SOV) of 77.18 percent. That is the next improving step to reach the theoretical limitation.

Other Abstract (Other language abstract of ETD)

วิทยานิพนธ์ฉบับนี้ได้นำเสนอวิธีการใหม่ในการเข้ารหัสลำดับอะมิโนแอซิดของโปรตีนโดยใช้วิธีการของมาคอล์ฟโปรเซส ด้วยเทคนิคนี้ ลักษณะเด่นที่สำคัญของลำดับสายโปรตีนจะถูกสกัดออกและนำไปใช้สร้างชุดของเวคเตอร์สำหรับเป็นข้อมูลในการสอนเพื่อการจำแนกประเภทด้วยซัพพอร์ตเวคเตอร์แมชชีน (SVM) ได้อย่างมีประสิทธิภาพ วิธีการที่ใช้ในงานวิจัยนี้ให้ผลลัพธ์ที่โดดเด่นกว่าวิธีการอื่นๆ ที่มีในปัจจุบันเป็นอย่างมาก ด้วยวิธีการจำแนกประเภทโดยใช้ SVM ร่วมกับวิธีการเข้ารหัสของข้อมูลโดยใช้มาคอฟทรานสิชั่นเมตริกสามารถวัดค่าความถูกต้องในการจำแนกแบบสามกลุ่มได้ดังนี้คือ Q3 = 82.49%, SOV = 77.18% โดยการประเมินจากกลุ่มข้อมูลทดสอบมาตรฐานของโปรตีนจำนวน 513 สาย (CB513) ซึ่งผลที่ได้นับว่าเป็นการพัฒนาเข้าใกล้ขีดจำกัดทางทฤษฎีได้อีกขั้นหนึ่ง

Share

COinS