Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การระบุซีคัมอัตโนมัติในการส่องกล้องลำไส้ใหญ่โดยใช้กระบวนการการเรียนรู้เชิงลึก
Year (A.D.)
2024
Document Type
Thesis
First Advisor
Peerapon Vateekul
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Master of Engineering
Degree Level
Master's Degree
Degree Discipline
Computer Engineering
DOI
10.58837/CHULA.THE.2024.1006
Abstract
Colonoscopy is essential for the early detection and prevention of colorectal cancer. Identifying the cecum is a vital element of this process. However, most existing automated methods rely on still images or temporal cues alone, without incorporating camera motion awareness, and are rarely suitable for real-time use. In this paper, we present a real-time cecum detection method that integrates spatial features, temporal modeling, and camera motion cues. We deploy ConvNeXtV2 for spatial feature extraction, LTContext for temporal modeling, and Depth Anything in Robotic Endoscopic Surgery (DARES) to enhance understanding of endoscope positioning and camera motion. The dataset used in this study was collected at the Center of Excellence for Innovation and Endoscopy in Gastrointestinal Oncology, Chulalongkorn University, which comprises 2,538 annotated images and 37 colonoscopy videos. For per-frame metrics, the model achieved a balanced accuracy of 81.30% and an F1 score of 80.86%, with an inference speed of over 61 FPS.
Other Abstract (Other language abstract of ETD)
การส่องกล้องลำไส้ใหญ่ (colonoscopy) มีความสำคัญอย่างยิ่งในการตรวจพบและป้องกันมะเร็งลำไส้ใหญ่ระยะเริ่มต้น การระบุหาตำแหน่งซีคัม (cecum) เป็นองค์ประกอบสำคัญของกระบวนการนี้ อย่างไรก็ตาม วิธีการอัตโนมัติที่มีอยู่ส่วนใหญ่มักอิงจากภาพนิ่งหรือข้อมูลเชิงเวลาเพียงอย่างเดียว โดยไม่รวมการรับรู้การเคลื่อนไหวของกล้อง และมักไม่เหมาะกับการใช้งานแบบเรียลไทม์ ในงานวิจัยนี้ เรานำเสนอวิธีการตรวจจับซีคัมแบบเรียลไทม์ โดยผสานคุณลักษณะเชิงพื้นที่ การวิเคราะห์ข้อมูลเชิงเวลา และข้อมูลการเคลื่อนไหวของกล้องเข้าไว้ด้วยกัน เราใช้ ConvNeXtV2 สำหรับการดึงคุณลักษณะเชิงภาพ LTContext สำหรับการวิเคราะห์ลำดับเวลา และ Depth Anything in Robotic Endoscopic Surgery (DARES) เพื่อเสริมความเข้าใจเกี่ยวกับตำแหน่งกล้องและการเคลื่อนไหวของกล้อง เรายังใช้ชุดข้อมูลที่รวบรวมจากศูนย์ความเป็นเลิศทางการแพทย์ด้านการส่องกล้องระบบทางเดินอาหาร จุฬาลงกรณ์มหาวิทยาลัย ซึ่งประกอบด้วยภาพที่มีการกำกับฉลากจำนวน 2,538 ภาพ และวิดีโอการส่องกล้องจำนวน 37 รายการ สำหรับการประเมินผลแบบเฟรมต่อเฟรม โมเดลสามารถทำได้ที่ความแม่นยำแบบสมดุล (balanced accuracy) ที่ 81.30% และค่า F1 score ที่ 80.86% โดยมีความเร็วในการประมวลผลมากกว่า 61 เฟรมต่อวินาที
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Sutthinuntakorn, Kittipoom, "Automated cecum identification in colonoscopy using deep learning approach" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 73973.
https://digital.car.chula.ac.th/chulaetd/73973