Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การระบุตัวบ่งชี้ทางชีวภาพของการแพร่กระจายของมะเร็งตับอ่อนชนิดที่เกิดจากเซลล์ท่อตับอ่อนด้วยวิธีการทางชีววิทยาระบบ

Year (A.D.)

2023

Document Type

Thesis

First Advisor

Natapol Pornputtapong

Second Advisor

Eva Caamano-gutierrez

Third Advisor

Ainhoa Mielgo

Faculty/College

Graduate School (บัณฑิตวิทยาลัย)

Degree Name

Doctor of Philosophy

Degree Level

Doctoral Degree

Degree Discipline

Bioinformatics and Computational Biology

DOI

10.58837/CHULA.THE.2023.1282

Abstract

Systems biology synergises biology with computational sciences, offering a holistic perspective and cutting-edge tools like machine learning (ML) to reveal disease biomarkers. ML can identify key molecular signals from omics data for biomarker candidate discovery. Effective ML demands practices avoiding data leakage and enhancing reproducibility. This study aimed to build a robust pipeline for biomarker candidates discovery using ML and applied it to pancreatic ductal adenocarcinoma (PDAC). PDAC is an aggressive pancreatic cancer with a poor prognosis. Over 80% of patients are diagnosed at late metastatic stages with no standard markers known for rapid and cost-effective metastasis diagnosis. Biomarkers for metastasis remain elusive, underscoring an urgent need to discover metastatic biomarkers and improve treatment.We reused and integrated RNA sequencing data from five public repositories, yielding 489 patient samples. A robust pre-processing pipeline implemented batch effect correction using ARSyN for unbiased multi-study data integration. The analysis workflow utilised an N-fold cross-validation approach for variable selection implementing three methods: LASSO, Boruta, and VarselRF, yielding 15 candidate genes. A resampling strategy by ADASYN addressed class imbalance common in clinical data. The random forest model, trained solely on the 15 genes, demonstrated exceptional metastasis classification model performance during validation, suggesting controlled overfitting. Biological contextualisation revealed complex interplay among the 15 genes in immune response, extracellular matrix remodelling, metabolic reprogramming, and angiogenesis – hallmark PDAC metastasis processes. Some genes showed therapeutic target potential. Limitations included data integration challenges, low tumour cellularity potentially masking PDAC signals from samples, and lack of comprehensive protein data for validation. Future work could explore single-cell RNA sequencing for cellular insights, studying the tumour microenvironment, therapeutic targeting studies and mapping biomarkers to PDAC subtypes for precision medicine, and wet lab validation for confirming the biomarker candidates. Although focused on PDAC, the general workflow can be applied to other biological contexts exploiting omics data. Each promising finding brings us closer to a future where cancers will not be death sentences but will become curable diseases.

Other Abstract (Other language abstract of ETD)

ชีววิทยาระบบเป็นการผสานความรู้ทางชีววิทยากับวิทยาศาสตร์การคำนวณ เพื่อเข้าใจชีววิทยาแบบองค์รวม โดยใช้เครื่องมือล้ำสมัยเช่นการเรียนรู้ของเครื่อง เพื่อค้นหาตัวบ่งชี้ทางชีวภาพของโรค ซึ่งเป็นลายนิ้วมือระดับโมเลกุลสำหรับการตรวจจับ พยากรณ์ และรักษาโรค การเรียนรู้ของเครื่องช่วยพยากรณ์สัญญาณทางโมเลกุลจากข้อมูลโอมิกส์ได้ แต่ต้องมีการวางแผนที่ดีเพื่อหลีกเลี่ยงการรั่วไหลของข้อมูล การศึกษานี้สร้างชุดขั้นตอนการวิเคราะห์ที่ทนทานสำหรับค้นหาตัวบ่งชี้ทางชีวภาพ โดยใช้กับมะเร็งตับอ่อนชนิดที่เกิดจากเซลล์ท่อตับอ่อน (PDAC) ซึ่งเป็นมะเร็งที่ก้าวร้าวและมีการพยากรณ์โรคไม่ดี กว่า 80% ของผู้ป่วยถูกวินิจฉัยในระยะท้ายและมีการแพร่กระจาย แต่ปัจจุบันไม่มีตัวบ่งชี้ทางชีวภาพมาตรฐานสำหรับวินิจฉัยการแพร่กระจาย ผู้วิจัยใช้ข้อมูลลำดับอาร์เอ็นเอจาก 5 ฐานข้อมูล มีตัวอย่าง 489 ราย ชุดขั้นตอนมีการแก้ไขผลกระทบจากชุดข้อมูลด้วย ARSyN ใช้ N-fold cross-validation เลือกตัวแปรด้วยLASSO Boruta และ VarselRF สำหรับการเลือกตัวแปรที่ทนทานจากข้อมูลที่ใช้ฝึกฝนเท่านั้นเพื่อป้องกันการรั่วไหล หลังจากผ่านการคัดเลือกตัวแปร ได้ยีนจำนวน 15 ยีน ในขั้นตอนการฝึกฝนโมเดลมีการใช้กลยุทธ์การสุ่มตัวอย่างโดย ADASYN แก้ปัญหาความไม่สมดุลของคลาสที่พบบ่อยในข้อมูลทางคลินิก โมเดล Random forest ที่ฝึกฝนด้วย 15 ยีน แสดงประสิทธิภาพการจำแนกการแพร่กระจายได้อย่างดีเยี่ยม ทั้งในระหว่างการฝึกฝนโมเดล ทดสอบข้ามชุดข้อมูล และทดสอบจากข้อมูลภายนอก ซึ่งบ่งชี้ว่าสามารถควบคุม overfitting ได้ การแปรผลทางชีววิทยาใช้ QIAGEN IPA และ GeneMania แสดงให้เห็นปฏิสัมพันธ์ที่ซับซ้อนระหว่างยีนทั้ง 15 ยีน ในการตอบสนองภูมิคุ้มกัน การปรับโครงสร้างเมทริกซ์นอกเซลล์ การปรับเมแทบอลิซึม และการสร้างเส้นเลือดใหม่ ซึ่งเกี่ยวข้องกับกระบวนการแพร่กระจายของ PDAC บางยีนมีศักยภาพในการเป็นเป้าหมายการรักษา ทั้งนี้การศึกษามีข้อจำกัด ได้แก่ ความยากในการรวมกันของข้อมูลซึ่งมีการแก้ไขผลกระทบจากชุดข้อมูลร่วมกัน ความหนาแน่นของเซลล์มะเร็งจากตัวอย่างที่ต่ำอาจกระทบต่อสัญญาณทางชีวภาพของ PDAC จากตัวอย่าง และขาดข้อมูลโปรตีนที่ครอบคลุมสำหรับการตรวจสอบ ในอนาคตควรมีการศึกษาโดยใช้ข้อมูลลำดับ RNA ของเซลล์เดี่ยวเพื่อสร้างความเข้าใจระดับเซลล์มากขึ้น การศึกษาสภาพแวดล้อมของเนื้องอก การศึกษาการกำหนดเป้าหมายการรักษา และการนำตัวบ่งชี้ทางชีวภาพที่ค้นพบเชื่อมโยงถึงชนิดย่อยของ PDAC ในการศึกษาทางการแพทย์แม่นยำ นอกจากนี้ควรการตรวจสอบในห้องปฏิบัติการเพื่อยืนยันตัวบ่งชี้ทางชีวภาพ การศึกษานี้แม้มุ่งเน้นที่ PDAC แต่สามารถนำไปใช้กับบริบททางชีววิทยาอื่นๆ ทุกการศึกษามีความสำคัญสู่อนาคตที่มะเร็งจะกลายเป็นโรคที่รักษาให้หายได้

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.