Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การถอดรหัสเปปไทด์ตามตำแหน่งด้วยเครือข่ายตัวเข้ารหัสและตัวถอดรหัสโดยรู้ว่าเมื่อใดไม่ควรตอบ
Year (A.D.)
2018
Document Type
Thesis
First Advisor
Ekapol Chuangsuwanich
Second Advisor
Sira Sriswasdi
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Master of Engineering
Degree Level
Master's Degree
Degree Discipline
Computer Engineering
DOI
10.58837/CHULA.THE.2018.151
Abstract
การถอดรหัสเปปไทด์นั้นเป็นองค์ประกอบสำคัญสำหรับการศึกษาโปรตีน โดยทั่วไปแล้วการวิเคราะห์ข้อมูล mass spectrum นั้นจะศึกษาเพียงสายของกรดอะมิโนที่ปรากฏอยู่ในฐานข้อมูลเท่านั้น ทำให้การค้นหาสายเปปไทด์แบบใหม่ที่อาจเกิดจากการกลายพันธุ์นั้นทำได้ยาก วิถีการถอดรหัสด้วยดีโนโวแก้ไขข้อจำกัดนี้ด้วยการถอดรหัสสายเปปไทด์โดยตรงจากข้อมูล mass spectrum โดยใช้ความรู้เกี่ยวกับกระบวนการแตกตัวของไอออน ทำให้ไม่จำเป็นต้องใช้ฐานข้อมูลโปรตีนช่วย อย่างไรก็ดี วิธีดังกล่าวยังมีข้อจำกัดด้านความแม่นยำและต้องการการตรวจทานโดยผู้เชี่ยวชาญ วิทยานิพนธ์ฉบับนี้นำเสนอวิธีการถอดรหัสเปปไทด์ด้วยวิธีการดีโนโวแบบใหม่ชื่อ SMSNet โดยใช้โมเดล deep learning เข้าช่วย โดยยังสามารถทำนายกรดอะมิโนได้อย่างครอบคลุมในระดับความแม่นยำของกรดอะมิโนที่ 95% งานฉบับนี้เสนอขั้นตอน ถอดรหัส ตัดออก และสืบค้น เพื่อตัดผลทำนายในตำแหน่งที่มีความกำกวมออกและใช้ข้อมูลจากฐานข้อมูลโปรตีนช่วยเพื่อให้ทำนายสายเปปไทด์ได้ถูกต้องทั้งเส้น นอกจากนี้ งานนี้ได้นำเสนอการใช้ rescorer ในการแก้ไขคะแนนความมั่นใจสำหรับผลทำนายในแต่ละตำแหน่ง ซึ่งส่งผลให้สามารถแยกกลุ่มคะแนนความมั่นใจสำหรับคำตอบที่ถูกต้องและคำตอบที่ผิดได้ดียิ่งขึ้น เมื่อประกอบทุกขั้นตอนวิธีในงานวิจัยฉบับนี้เข้าด้วยกันพบว่า SMSNet สามารถทำนายสายเปปไทด์ได้ในประสิทธิภาพที่ใกล้เคียงกับการทำนายด้วยฐานข้อมูลในการทดลองจริง
Other Abstract (Other language abstract of ETD)
Peptide sequencing is an important component for understanding the characterization of proteins. Typical analyses of mass spectrometry data only identify amino acid sequences that exist in reference databases. This restricts the possibility of discovering new peptides such as those that contain uncharacterized mutations or originate from unexpected proteins. De novo peptide sequencing approaches address this limitation by directly deriving peptides from MS/MS spectra using the knowledge of the ion fragmentation process but often suffer from low accuracy and require extensive validation by experts. In this thesis, we develop SMSNet, a deep learning-based hybrid de novo peptide sequencing model that achieves >95% amino acid accuracy while retaining good identification coverage. We propose a sequence-mask-search framework which allows the model to recover full-sequence peptide predictions from known database in case the predictions contain ambiguous amino acid positions. Additionally, because the confidence scores of each amino acid are often affected by the predictions in the previous positions, we propose the use of external rescorer for adjusting the scores, which leads to better separation between correct and incorrect amino acids. Using techniques described and proposed in this thesis, we are able to recover a large number of peptides which are in accordance with predictions using database searching techniques, suggesting the potential of SMSNet on other real-life proteomics studies.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Karunratanakul, Korrawe, "Knowing when not to answer: positional peptide sequencing with encoder-decoder networks" (2018). Chulalongkorn University Theses and Dissertations (Chula ETD). 2282.
https://digital.car.chula.ac.th/chulaetd/2282