Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Computational workflow development for identification of polyadenylated rna in prokaryote from direct rna nanopore sequencing data with polyuridylation

Year (A.D.)

2021

Document Type

Thesis

First Advisor

พรชัย แก้วทรัพย์ศักดิ์

Second Advisor

มนนัทธ์ พงษ์พานิช

Third Advisor

นฤมล ประทานวณิช

Faculty/College

Graduate School (บัณฑิตวิทยาลัย)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

ชีวสารสนเทศศาสตร์และชีววิทยาเชิงคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2021.602

Abstract

กระบวนการเติมพอลิอะดีนีนเป็นการดัดแปรอาร์เอ็นเอที่ปลาย 3' หลังการถอดรหัสหรือเรียกว่าหางพอลิอะดีนีน ซึ่งหางพอลิอะดีนีนมีหน้าที่ในการควบคุมเสถียรภาพของอาร์เอ็นเอและนำไปสู่การควบคุมการแสดงออกของยีน ปัจจุบันการศึกษาความยาวและหน้าที่ของหางพอลิอะดีนีนในอาร์เอ็นเอของโพรแคริโอตมีน้อยมาก เนื่องจากความยาวของหางพอลิอะดีนีนในอาร์เอ็นเอของโพรแคริโอตสั้นมาก และทำหน้าที่เป็นสัญญาณการย่อยสลายอาร์เอ็นเอ ส่งผลให้ตรวจพบได้ยาก ในการศึกษานี้ได้ทำการพัฒนาวิธีทางคอมพิวเตอร์เพื่อศึกษาหางพอลิอะดีนีนความยาวสั้นในอาร์เอ็นเอของโพรแคริโอต โดยใช้ข้อมูลอาร์เอ็นเอจากการหาลำดับเบสยุคที่สามด้วยอ็อกซ์ฟอร์ดนาโนพอร์ที่สามารถหาลำดับเบสอาร์เอ็นเอสายยาวได้โดยตรง โดยทำการปรับปรุงขั้นตอนการเตรียมไลบรารี่สำหรับการหาลำดับเบสโดยใช้เอนไซม์เพื่อสังเคราะห์พอลิยูริดินที่ปลาย 3' ของสายลำดับเบส เพื่ออนุรักษ์ความยาวหางพอลิอะดีนีนดั้งเดิมไว้ และใช้สำหรับการเชื่อมต่อกับพอลิอะดีนีนอะแดปเตอร์สำหรับการหาลำดับเบส วิธีนี้ไม่จำเป็นต้องเพิ่มปริมาณสารพันธุกรรม หรือถอดรหัสย้อนกลับ ที่อาจส่งผลต่อความยาวดั้งเดิมของหางพอลิอะดีนีน จากการศึกษาด้วยอาร์เอ็นเอสังเคราะห์ที่มีการกำหนดความยาวหางพอลิอะดีนีนไว้คงที่ พบว่าโปรแกรมสำหรับการประมาณความยาวหางพอลิอะดีนีน (nanopolish และ tailfindr) มีความคลาดเคลื่อนในการประมาณความยาวของหางพอลิอะดีนีนสายสั้น โดยมีค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ยอยู่ในช่วง 0.33 ถึง 7.49 นิวคลีโอไทด์ สำหรับ nanopolish และ 6.38 ถึง 16.89 นิวคลีโอไทด์ สำหรับ tailfindr หลังจากการปรับปรุงข้อมูลด้วยการกำจัดสัญญาณไม่ปกติและใช้ข้อมูลจากการลำดับเบสเข้าช่วยพบว่าโปรแกรมสามารถหาความยาวของหางพอลิอะดีนีนสายสั้นได้ใกล้เคียงมากขึ้น โดยมีค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ยลดลงอยู่ในช่วง 0.43 ถึง 7.28 นิวคลีโอไทด์ สำหรับ nanopolish และ 3.28 ถึง 5.96 นิวคลีโอไทด์ สำหรับ tailfindr และเมื่อนำวิธีการศึกษาดังกล่าวไปประยุกต์ในอาร์เอ็นเอของ Escherichia coli K-12 ได้ตรวจพบหางพอลิอะดีนีนในยีนซึ่งเคยมีรายงานจากงานวิจัยก่อนหน้า เช่น rpsO, rplQ และ ompA เป็นต้น นอกจากนี้ยังพบยีนที่มีความเป็นไปได้ที่จะมีหางพอลิอะดีนีน แต่ยังไม่มีรายงานมาก่อน เช่น apt และ ppa เป็นต้น การศึกษาความยาวหางพอลิอะดีนีนในโพรแคริโอตสามารถเชื่อมโยงกับการควบคุมการแสดงออกของยีนซึ่งจะช่วยพัฒนาองค์ความรู้ด้านการควบคุมการแสดงออกของยีนในแบคทีเรีย และสามารถนำไปประยุกต์ได้ในอนาคต

Other Abstract (Other language abstract of ETD)

Polyadenylation or poly(A) tail is a post-transcriptional modification at the 3' end of RNA. Its main function is to regulate RNA stability and control gene expression. Currently a little is known about the length and function of poly(A) tail in prokaryotic RNAs as they are challenging to detect due to very short poly(A) tail length and its function as RNA degradation signal. In this study, a computational method was developed to study short length poly(A) tail in prokaryotic RNA using Oxford Nanopores Technologies (ONT) direct RNA sequencing, a third-generation sequencing technique, which can provide long-read sequencing data. In library preparation, poly(U) polymerase was used to synthesize polyuridine or poly(U) tail at the 3' end of the sequencing strand to bind to the custom poly(A) sequencing adapter, while still preserve the native poly(A) tail length. This method does not need reverse transcription or amplification that might affect the native length poly(A) tail. Using synthetic RNAs with pre-defined poly(A) length, the programs for estimating the length of poly(A) tail, nanopolish and tailfindr, have noticeable error in estimating the length of short poly(A) tail with mean absolute error were ranging from 0.33 to 7.49 nucleotides for the nanopolish and 6.38 to 16.89 nucleotides for the tailfindr. After removing reads with unusual poly(A) electrical signal and reassigning underestimated poly(A) tail using basecalled sequencing data, our developed poly(A) tail reassignment workflow improved the accuracy of estimating short poly(A) tail length with the mean absolute errors ranging from 0.43 to 7.28 nucleotides for the nanopolish and 3.28 to 5.96 nucleotides for the tailfindr. Applying our method to Escherichia coli RNA, previously reported genes with poly(A) tails such as rpsO, rplQ and ompA were found. Furthermore, the novel genes with potential polyadenylation such as apt and ppa were also discovered. Study of poly(A) tail length in prokaryotes can be linked to gene expression and regulation, which can lead various applications such as drug development for pathogens or bacterial engineering in the future.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.