Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การระบุซีคัมอัตโนมัติในการส่องกล้องลำไส้ใหญ่โดยใช้กระบวนการการเรียนรู้เชิงลึก

Year (A.D.)

2024

Document Type

Thesis

First Advisor

Peerapon Vateekul

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

Master of Engineering

Degree Level

Master's Degree

Degree Discipline

Computer Engineering

DOI

10.58837/CHULA.THE.2024.1006

Abstract

Colonoscopy is essential for the early detection and prevention of colorectal cancer. Identifying the cecum is a vital element of this process. However, most existing automated methods rely on still images or temporal cues alone, without incorporating camera motion awareness, and are rarely suitable for real-time use. In this paper, we present a real-time cecum detection method that integrates spatial features, temporal modeling, and camera motion cues. We deploy ConvNeXtV2 for spatial feature extraction, LTContext for temporal modeling, and Depth Anything in Robotic Endoscopic Surgery (DARES) to enhance understanding of endoscope positioning and camera motion. The dataset used in this study was collected at the Center of Excellence for Innovation and Endoscopy in Gastrointestinal Oncology, Chulalongkorn University, which comprises 2,538 annotated images and 37 colonoscopy videos. For per-frame metrics, the model achieved a balanced accuracy of 81.30% and an F1 score of 80.86%, with an inference speed of over 61 FPS.

Other Abstract (Other language abstract of ETD)

การส่องกล้องลำไส้ใหญ่ (colonoscopy) มีความสำคัญอย่างยิ่งในการตรวจพบและป้องกันมะเร็งลำไส้ใหญ่ระยะเริ่มต้น การระบุหาตำแหน่งซีคัม (cecum) เป็นองค์ประกอบสำคัญของกระบวนการนี้ อย่างไรก็ตาม วิธีการอัตโนมัติที่มีอยู่ส่วนใหญ่มักอิงจากภาพนิ่งหรือข้อมูลเชิงเวลาเพียงอย่างเดียว โดยไม่รวมการรับรู้การเคลื่อนไหวของกล้อง และมักไม่เหมาะกับการใช้งานแบบเรียลไทม์ ในงานวิจัยนี้ เรานำเสนอวิธีการตรวจจับซีคัมแบบเรียลไทม์ โดยผสานคุณลักษณะเชิงพื้นที่ การวิเคราะห์ข้อมูลเชิงเวลา และข้อมูลการเคลื่อนไหวของกล้องเข้าไว้ด้วยกัน เราใช้ ConvNeXtV2 สำหรับการดึงคุณลักษณะเชิงภาพ LTContext สำหรับการวิเคราะห์ลำดับเวลา และ Depth Anything in Robotic Endoscopic Surgery (DARES) เพื่อเสริมความเข้าใจเกี่ยวกับตำแหน่งกล้องและการเคลื่อนไหวของกล้อง เรายังใช้ชุดข้อมูลที่รวบรวมจากศูนย์ความเป็นเลิศทางการแพทย์ด้านการส่องกล้องระบบทางเดินอาหาร จุฬาลงกรณ์มหาวิทยาลัย ซึ่งประกอบด้วยภาพที่มีการกำกับฉลากจำนวน 2,538 ภาพ และวิดีโอการส่องกล้องจำนวน 37 รายการ สำหรับการประเมินผลแบบเฟรมต่อเฟรม โมเดลสามารถทำได้ที่ความแม่นยำแบบสมดุล (balanced accuracy) ที่ 81.30% และค่า F1 score ที่ 80.86% โดยมีความเร็วในการประมวลผลมากกว่า 61 เฟรมต่อวินาที

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.