Chulalongkorn University Theses and Dissertations (Chula ETD)
Neural prediction of protein-protein interactions based on physicochemical correlation coefficients and bootstrapping for artificial data generation
Other Title (Parallel Title in Other Language of ETD)
การทำนายโดยโครงข่ายประสาทเทียมของอันตรกิริยาระหว่างคู่โปรตีนบนพื้นฐานของสัมประสิทธิ์สหสัมพันธ์เชิงเคมีกายภาพ และการบูตสแทรปสำหรับการสร้างข้อมูลเทียม
Year (A.D.)
2011
Document Type
Thesis
First Advisor
Chidchanok Lursinsap
Faculty/College
Faculty of Science (คณะวิทยาศาสตร์)
Degree Name
Doctor of Philosophy
Degree Level
Doctoral Degree
Degree Discipline
Computer Science
DOI
10.58837/CHULA.THE.2011.1089
Abstract
Although using only protein sequences might be sufficient for predicting, there are major problems in the prediction of protein-protein interactions by classifying technique such as supervised neural network. The first one is extracting the feature of protein pair sequences to form a feature sequence. The second problem is conserving the information when equalizing the lengths of feature sequences before classifying into interacting and non-interacting classes. This dissertation proposed a method to predict protein-protein interactions from amino acid sequences using only artificial boundary data generation and boosting procedures to improve the prediction accuracies. The feature extraction is based on the correlation coefficients of physicochemical properties, the statistical means and standard deviations of secondary structures and protein properties. The important data which lie into the boundary of each subcluster were only used to generate the artificial boundary data by bootstrap resampling technique. Finally, the only artificial boundary data of both positive and negative protein pairs were predicted by boosting method based on neural network classifier. The empirical study has shown that our proposed method yielded better prediction accuracy than the sequence-based methods when performed on Yeast Saccharomyces Cerevisiae data set. Moreover, the number of feature and the number of training data were less than others. The prediction models were also evaluated by cross-species test data sets. The result showed that the proposed method also capable to predict with the good performance on cross-species data.
Other Abstract (Other language abstract of ETD)
แม้ว่าการใช้เฉพาะสายลำดับโปรตีน อาจจะมีเพียงพอสำหรับการทำนายอันตรกิริยาคู่โปรตีนโดยใช้โครงข่ายประสาทเทียม แต่มีปัญหาที่ต้องพิจารณาคือ การสกัดคุณลักษณะของคู่โปรตีนให้อยู่ในรูปของตัวมูลตัวเลข ปัญหาถัดมาคือ ต้องสงวนรักษาคุณสมบัติของคู่โปรตีนนั้น หลังจากที่ทำให้เป็นเว็กเตอร์ตัวเลขที่มีขนาดเท่ากันในแต่ละคู่โปรตีน วิทยานิพนธ์นี้จึงได้นำเสนอวิธีการทำนายอันตรกิริยาระหว่างคู่โปรตีนจากสายลำดับโปรตีน ที่ใช้เฉพาะขอบข้อมูลเทียมที่ได้สร้างขึ้นจากข้อมูลคู่โปรตีน รวมทั้งหลักการบูตส่งเสริมเพื่อเพิ่มประสิทธิภาพในการทำนายของโครงข่ายประสาทเทียม โดยการสกัดคุณลักษณะของคู่โปรตีนบนพื้นฐานสัมประสิทธิ์สหสัมพันธ์เชิงเคมีกายภาพ ค่าทางสถิติของโครงสร้างทุติยภูมิ และคุณสมบัติที่สำคัญของโปรตีน หลังจากนั้นจะได้คุณลักษณะของคู่โปรตีนที่อยู่ในรูปของข้อมูลเว็กเตอร์ตัวเลขที่มีขนาดเท่ากัน ซึ่งข้อมูลตัวเลขเหล่านี้จะถูกนำมาหาขอบข้อมูล และนำเฉพาะขอบนี้ไปสร้างข้อมูลขอบเทียมโดยใช้หลักการบูตสแทรป และขั้นตอนสุดท้าย ข้อมูลขอบเทียมเท่านั้นจะถูกนำไปใช้ทำนายการเกิดอันตรกิริยาคู่โปรตีน โดยใช้หลักการบูตส่งเสริมโครงข่ายประสาทเทียม ผลการทดลองกับข้อมูลยีสต์ ปรากฏว่าวิธีการที่ได้นำเสนอนั้น สามารถทำนายได้ถูกต้องมากกว่าวิธีการอื่นที่นำมาเปรียบเทียบ มากไปกว่านั้นวิธีที่นำเสนอได้ใช้เฉพาะข้อมูลขอบเทียมมาเป็นข้อมูลการสอน ซึ่งจำนวนข้อมูลสอนจะน้อยกว่าวิธีอื่นด้วย นอกจากนี้ยังประเมินประสิทธิภาพการทำนายด้วยข้อมูลทดสอบโปรตีนข้ามสายพันธุ์ ผลแสดงให้เห็นว่าวิธีการที่นำเสนอนั้นมีประสิทธิภาพการทำนายดีกว่าวิธีการอื่นที่นำมาเปรียบเทียบ
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Thanathamathee, Putthiporn, "Neural prediction of protein-protein interactions based on physicochemical correlation coefficients and bootstrapping for artificial data generation" (2011). Chulalongkorn University Theses and Dissertations (Chula ETD). 61101.
https://digital.car.chula.ac.th/chulaetd/61101