Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การทำนายปฏิสัมพันธ์ระหว่างโปรตีนกับอาร์เอ็นเอสายยาวที่ไม่ถูกแปลรหัสไปเป็นโปรตีนโดยใช้แบบจำลองการเรียนรู้เชิงลึก
Year (A.D.)
2019
Document Type
Thesis
First Advisor
Duangdao Wichadakul
Second Advisor
Thammakorn Saethang
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Biomedical Engineering
DOI
10.58837/CHULA.THE.2019.1561
Abstract
One main function of long non-coding RNAs (lncRNAs) is to act as a scaffold facilitating multiple proteins to form complexes. Most of available prediction models for protein-RNA interactions, however, were proposed as a binary classifier, which limited on predicting the interaction between the non-coding RNAs and each individual RNA-binding protein (RBP). Hence, to predict if a lncRNA is acting as a scaffold, we consider this problem as a multiclass multilabel classification problem. To solve this problem, the high confident CLIP-seq data were selected from the POSTAR2 database with an augmentation of the data for the RBP classes with a small number of interacting lncRNAs. We then constructed a deep learning model for multiclass multilabel classification, called McBel-Plnc, based on the convolutional neural network (CNN) and long-short term memory (LSTM) using each of the five datasets randomly generated from the prepared data. Based on macro average, the test results showed the high precision of 0.9151 ± 0.0038 averaged from the five models with the lower recall of 0.5786 ± 0.0208. The small standard deviations confirmed the model stability. Comparing McBel-Plnc-0, one of the five models, to iDeepE with a binary relevance method by the same data set, McBel-Plnc-0 provided 0.5878 and 0.9172 for the recall and precision while the iDeepE obtained a higher recall of 0.6912 with a significantly lower precision of 0.1987. This result suggested that our model is competent to predict the protein-lncRNA interactions, especially with the lncRNAs targeted by multiple proteins. Also, it highlighted the potential to infer the insights of lncRNA functions and molecular mechanisms.
Other Abstract (Other language abstract of ETD)
อาร์เอ็นเอสายยาวที่ไม่ถูกแปลรหัสไปเป็นโปรตีน หรือ ลองนอนโคดดิงอาร์เอ็นเอ (long non-coding RNA, lncRNA) มีหน้าที่สำคัญประการหนึ่ง คือ เป็นโครงร่าง (scaffold) โดยมักมีโปรตีนมากกว่า 1 โมเลกุลมาจับ จากการศึกษาก่อนหน้ามีการใช้การจำแนกข้อมูลแบบสองทาง หรือ binary classification ในการทำนายปฏิสัมพันธ์ระหว่างโปรตีนและอาร์เอ็นเอได้ อย่างไรก็ตาม ยังมีข้อจำกัดในการทำนายปฏิสัมพันธ์ระหว่างโปรตีนกับอาร์เอ็นเอที่ไม่ถูกแปลรหัสไปเป็นโปรตีนโดยเฉพาะกลุ่มที่ทำหน้าที่เป็นโครงร่างของโปรตีน เพื่อแก้ไขข้อจำกัดดังกล่าวจึงนำไปสู่การศึกษาข้อมูลปฏิสัมพันธ์ระหว่างโปรตีนและอาร์เอ็นเอสายยาวที่ไม่ถูกแปลรหัสไปเป็นโปรตีน เพื่อสร้างโมเดลแบบจำลองการเรียนรู้เชิงลึก ซึ่งเรียกว่า แบบจำลองแมคเบลแพลงค์ (McBel-Plnc) โดยนำข้อมูลจากฐานข้อมูลโพสทาร์ทู (POSTAR2) เพื่อนำมาสร้างแบบจำลอง ซึ่งประกอบด้วยโครงข่ายประสาทแบบคอนโวลูชัน (convolutional neural network, CNN) และโครงข่ายประสาทเทียมแบบวนกลับชนิดพิเศษ (long short-term memory, LSTM) โดยใช้กระบวนการการจำแนกข้อมูลแบบมัลติคลาสมัลติลาเบล (multiclass multilabel classification) ผลการวิจัยแสดงให้เห็นว่าแบบจำลองแมคเบลแพลงค์ มีค่าความแม่นยำ (precision) สูง แต่มีค่ารีคอล (recall) ต่ำ โดยมีค่าเฉลี่ยแบบมาโครอยู่ที่ 0.9151± 0.0038 และ 0.5786 ± 0.0208 ตามลำดับ ค่าความเบี่ยงเบนมาตรฐานที่ต่ำเช่นนี้ยืนยันถึงความมีเสถียรภาพของแบบจำลอง เมื่อเทียบประสิทธิภาพของแบบจำลองแมคเบลแพลงค์ศูนย์ (McBel-Plnc-0) กับแบบจำลองไอดีพอี (iDeepE) ซึ่งใช้ข้อมูลชุดเดียวกัน พบว่า แบบจำลองแมคเบลแพลงค์ศูนย์ให้ค่าเฉลี่ยแบบมาโครของรีคอลและความแม่นยำอยู่ที่ 0.5878 and 0.9172 ในขณะที่แบบจำลองไอดีพอีมีค่ารีคอลที่สูงกว่า และมีความแม่นยำที่ต่ำกว่า โดยมีค่าเฉลี่ยแบบมาโครอยู่ที่ 0.6912 และ 0.1987 ตามลำดับ ผลการวิจัยแสดงให้เห็นว่าแบบจำลองแมคเบลแพลงค์ มีความสามารถในการทำนายปฏิสัมพันธ์ของโปรตีนกับอาร์เอ็นเอสายยาวที่ไม่ถูกแปลรหัสไปเป็นโปรตีน และยังสามารถอนุมานถึงกลไกระดับโมเลกุลและหน้าที่ของอาร์เอ็นเอสายยาวที่ไม่ถูกแปลรหัสไปเป็นโปรตีน
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Navamajiti, Natsuda, "Prediction of lncrna-protein interactions based on deep learning model" (2019). Chulalongkorn University Theses and Dissertations (Chula ETD). 11565.
https://digital.car.chula.ac.th/chulaetd/11565