Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การระบุตัวบ่งชี้ทางชีวภาพของการแพร่กระจายของมะเร็งตับอ่อนชนิดที่เกิดจากเซลล์ท่อตับอ่อนด้วยวิธีการทางชีววิทยาระบบ
Year (A.D.)
2023
Document Type
Thesis
First Advisor
Natapol Pornputtapong
Second Advisor
Eva Caamano-gutierrez
Third Advisor
Ainhoa Mielgo
Faculty/College
Graduate School (บัณฑิตวิทยาลัย)
Degree Name
Doctor of Philosophy
Degree Level
Doctoral Degree
Degree Discipline
Bioinformatics and Computational Biology
DOI
10.58837/CHULA.THE.2023.1282
Abstract
Systems biology synergises biology with computational sciences, offering a holistic perspective and cutting-edge tools like machine learning (ML) to reveal disease biomarkers. ML can identify key molecular signals from omics data for biomarker candidate discovery. Effective ML demands practices avoiding data leakage and enhancing reproducibility. This study aimed to build a robust pipeline for biomarker candidates discovery using ML and applied it to pancreatic ductal adenocarcinoma (PDAC). PDAC is an aggressive pancreatic cancer with a poor prognosis. Over 80% of patients are diagnosed at late metastatic stages with no standard markers known for rapid and cost-effective metastasis diagnosis. Biomarkers for metastasis remain elusive, underscoring an urgent need to discover metastatic biomarkers and improve treatment.We reused and integrated RNA sequencing data from five public repositories, yielding 489 patient samples. A robust pre-processing pipeline implemented batch effect correction using ARSyN for unbiased multi-study data integration. The analysis workflow utilised an N-fold cross-validation approach for variable selection implementing three methods: LASSO, Boruta, and VarselRF, yielding 15 candidate genes. A resampling strategy by ADASYN addressed class imbalance common in clinical data. The random forest model, trained solely on the 15 genes, demonstrated exceptional metastasis classification model performance during validation, suggesting controlled overfitting. Biological contextualisation revealed complex interplay among the 15 genes in immune response, extracellular matrix remodelling, metabolic reprogramming, and angiogenesis – hallmark PDAC metastasis processes. Some genes showed therapeutic target potential. Limitations included data integration challenges, low tumour cellularity potentially masking PDAC signals from samples, and lack of comprehensive protein data for validation. Future work could explore single-cell RNA sequencing for cellular insights, studying the tumour microenvironment, therapeutic targeting studies and mapping biomarkers to PDAC subtypes for precision medicine, and wet lab validation for confirming the biomarker candidates. Although focused on PDAC, the general workflow can be applied to other biological contexts exploiting omics data. Each promising finding brings us closer to a future where cancers will not be death sentences but will become curable diseases.
Other Abstract (Other language abstract of ETD)
ชีววิทยาระบบเป็นการผสานความรู้ทางชีววิทยากับวิทยาศาสตร์การคำนวณ เพื่อเข้าใจชีววิทยาแบบองค์รวม โดยใช้เครื่องมือล้ำสมัยเช่นการเรียนรู้ของเครื่อง เพื่อค้นหาตัวบ่งชี้ทางชีวภาพของโรค ซึ่งเป็นลายนิ้วมือระดับโมเลกุลสำหรับการตรวจจับ พยากรณ์ และรักษาโรค การเรียนรู้ของเครื่องช่วยพยากรณ์สัญญาณทางโมเลกุลจากข้อมูลโอมิกส์ได้ แต่ต้องมีการวางแผนที่ดีเพื่อหลีกเลี่ยงการรั่วไหลของข้อมูล การศึกษานี้สร้างชุดขั้นตอนการวิเคราะห์ที่ทนทานสำหรับค้นหาตัวบ่งชี้ทางชีวภาพ โดยใช้กับมะเร็งตับอ่อนชนิดที่เกิดจากเซลล์ท่อตับอ่อน (PDAC) ซึ่งเป็นมะเร็งที่ก้าวร้าวและมีการพยากรณ์โรคไม่ดี กว่า 80% ของผู้ป่วยถูกวินิจฉัยในระยะท้ายและมีการแพร่กระจาย แต่ปัจจุบันไม่มีตัวบ่งชี้ทางชีวภาพมาตรฐานสำหรับวินิจฉัยการแพร่กระจาย ผู้วิจัยใช้ข้อมูลลำดับอาร์เอ็นเอจาก 5 ฐานข้อมูล มีตัวอย่าง 489 ราย ชุดขั้นตอนมีการแก้ไขผลกระทบจากชุดข้อมูลด้วย ARSyN ใช้ N-fold cross-validation เลือกตัวแปรด้วยLASSO Boruta และ VarselRF สำหรับการเลือกตัวแปรที่ทนทานจากข้อมูลที่ใช้ฝึกฝนเท่านั้นเพื่อป้องกันการรั่วไหล หลังจากผ่านการคัดเลือกตัวแปร ได้ยีนจำนวน 15 ยีน ในขั้นตอนการฝึกฝนโมเดลมีการใช้กลยุทธ์การสุ่มตัวอย่างโดย ADASYN แก้ปัญหาความไม่สมดุลของคลาสที่พบบ่อยในข้อมูลทางคลินิก โมเดล Random forest ที่ฝึกฝนด้วย 15 ยีน แสดงประสิทธิภาพการจำแนกการแพร่กระจายได้อย่างดีเยี่ยม ทั้งในระหว่างการฝึกฝนโมเดล ทดสอบข้ามชุดข้อมูล และทดสอบจากข้อมูลภายนอก ซึ่งบ่งชี้ว่าสามารถควบคุม overfitting ได้ การแปรผลทางชีววิทยาใช้ QIAGEN IPA และ GeneMania แสดงให้เห็นปฏิสัมพันธ์ที่ซับซ้อนระหว่างยีนทั้ง 15 ยีน ในการตอบสนองภูมิคุ้มกัน การปรับโครงสร้างเมทริกซ์นอกเซลล์ การปรับเมแทบอลิซึม และการสร้างเส้นเลือดใหม่ ซึ่งเกี่ยวข้องกับกระบวนการแพร่กระจายของ PDAC บางยีนมีศักยภาพในการเป็นเป้าหมายการรักษา ทั้งนี้การศึกษามีข้อจำกัด ได้แก่ ความยากในการรวมกันของข้อมูลซึ่งมีการแก้ไขผลกระทบจากชุดข้อมูลร่วมกัน ความหนาแน่นของเซลล์มะเร็งจากตัวอย่างที่ต่ำอาจกระทบต่อสัญญาณทางชีวภาพของ PDAC จากตัวอย่าง และขาดข้อมูลโปรตีนที่ครอบคลุมสำหรับการตรวจสอบ ในอนาคตควรมีการศึกษาโดยใช้ข้อมูลลำดับ RNA ของเซลล์เดี่ยวเพื่อสร้างความเข้าใจระดับเซลล์มากขึ้น การศึกษาสภาพแวดล้อมของเนื้องอก การศึกษาการกำหนดเป้าหมายการรักษา และการนำตัวบ่งชี้ทางชีวภาพที่ค้นพบเชื่อมโยงถึงชนิดย่อยของ PDAC ในการศึกษาทางการแพทย์แม่นยำ นอกจากนี้ควรการตรวจสอบในห้องปฏิบัติการเพื่อยืนยันตัวบ่งชี้ทางชีวภาพ การศึกษานี้แม้มุ่งเน้นที่ PDAC แต่สามารถนำไปใช้กับบริบททางชีววิทยาอื่นๆ ทุกการศึกษามีความสำคัญสู่อนาคตที่มะเร็งจะกลายเป็นโรคที่รักษาให้หายได้
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Mahawan, Tanakamol, "Biomarker identification of pancreatic ductal adenocarcinoma metastasis by systems biology approach" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 11023.
https://digital.car.chula.ac.th/chulaetd/11023