Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Comparative analysis of diagnostic performance between two artificial intelligence-assisted polyp detection systems using a selected optimal false positive thresholds.

Year (A.D.)

2021

Document Type

Thesis

First Advisor

ภาฤทธิ์ เมฆอรุณกมล

Second Advisor

รังสรรค์ ฤกษ์นิมิตร

Faculty/College

Faculty of Medicine (คณะแพทยศาสตร์)

Department (if any)

Department of Medicine (ภาควิชาอายุรศาสตร์ (คณะแพทยศาสตร์))

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

อายุรศาสตร์

DOI

10.58837/CHULA.THE.2021.1136

Abstract

ความสำคัญและที่มา: จำนวนของผลบวกลวง (false positive) ปริมาณมากที่เกิดขึ้นในการส่องลำไส้ใหญ่โดยใช้ระบบคอมพิวเตอร์ปัญญาประดิษฐ์ช่วยในการ หาติ่งเนื้อลำไส้อาจทำให้แพทย์ผู้ทำการส่องกล้องเกิดความรำคาญ เสียสมาธิในการส่องกล้อง เสียเวลามากขึ้นในการเข้าไปตรวจเช็คซ้ำบริเวณที่มีกรอบขึ้น ทำให้ใช้เวลาในการ ส่องกล้องลำไส้ใหญ่นานขึ้น อย่างไรก็ตาม การปรับค่าเกณฑ์ชี้วัดที่ช่วยลดบวกลวงทำให้ความไวและความถูกต้องของประสิทธิภาพของระบบคอมพิวเตอร์ปัญญาประดิษฐ์ในการ ตรวจพบติ่งเนื้อลำไส้ใหญ่ลดลง วัตถุประสงค์: เพื่อเปรียบเทียบประสิทธิภาพระหว่างระบบคอมพิวเตอร์ปัญญาประดิษฐ์2 ระบบคือ CAD EYE และ Deep-GI ในการการช่วยตรวจจับติ่งเนื้อ ลำไส้ใหญ่ในผู้ที่มาส่องกล้องคัดกรองมะเร็งลำไส้ใหญ่ และหาค่าเกณฑ์ชี้วัดที่เหมาะสมเพื่อลดอัตราการเกิดผลบวกลวง ระเบียบวิธีการวิจัย: ระบบ Deep-GI ได้ถูกพัฒนาขึ้น โดยใช้กระบวนการเรียนรู้เชิงลึกของคอมพิวเตอร์บน Model ทางวิศวกรรมศาสตร์ชื่อ YOLOv5 deep learning framework ซึ่งมีการใช้ข้อมูลตัวอย่างในการพัฒนา Deep-GI ถึง 15,188 ภาพ และใช้ในการทดสอบอีก 1,520 ภาพ เมื่อเริ่มทำการศึกษา จะมีการบันทึก วีดีโอขณะกำลังถอยกล้องตรวจดูลำไส้ใหญ่ ทั้งวีดีโอที่มีระบบ CAD EYE (CAD EYETM ; Fujifilm, Tokyo, Japan) และ วีดีโอที่นำระบบ Deep-GI มาใส่เข้าไปภายหลัง หลังจาก นั้น วีดีโอที่มีระบบคอมพิวเตอร์ปัญญาประดิษฐ์ทั้ง 2 วีดีโอ จะถูกตรวจสอบและบันทึกข้อมูลต่าง ๆ โดยอายุรแพทย์ทางเดินอาหารที่มีความเชี่ยวชาญด้านการส่องกล้องลำไส้ ใหญ่ 2 คน ข้อมูลใดที่มีความเห็นไม่ตรงกันจะถูกตรวจสอบซ้ำโดยอายุรแพทย์ทางเดินอาหารที่มีความเชี่ยวชาญพิเศษ ผลบวกจริง (true positive) คือ การที่ปัญญาประดิษฐ์ขึ้น กรอบเตือนว่ามีติ่งเนื้อในบริเวณที่มีติ่งเนื้อจริง หลังจากแพทย์ตรวจสอบวีดีโลและบันทึข้อมูลแล้ว จะนำข้อมูลต่าง ๆ เช่น อัตราการพบติ่งเนื้อลำไส้ใหญ่ (polyp detection rate), อัตราการไม่พบติ่งเนื้อลำไส้ใหญ่ (polyp miss rate) และอัตราการพบผลบวกลวง (false positive rate) มาคำนวณเปรียบเทียบประสิทธิภาพของระบบคอมพิวเตอร์ ปัญญาประดิษฐ์ทั้ง 2 ระบบโดยเปรียบเทียบในหลายๆเกณฑ์ชี้วัด ทั้งเกณฑ์ชี้วัด ≥ 0.5 วินาที, ≥ 1 วินาที, ≥ 1.5 วินาทีและ ≥ 2 วินาที ผลการวิจัย: จากผู้ป่วยที่มาส่องกล้องเพื่อคัดกรองมะเร็งลำไส้ใหญ่ทั้งหมด 170 ราย พบว่า มีผู้ป่วย 137 รายที่ส่องกล้องพบติ่งเนื้อลำไส้ใหญ่อย่างน้อย 1 ติ่ง เนื้อ โดยมีค่าเฉลี่ยระยะเวลาในการถอยกล้องเท่ากับ 7.8 ± 2.7 นาทีจากผู้ป่วย 137 ราย พบติ่งเนื้อลำไส้ใหญ่ทั้งหมด 501 ติ่งเนื้อ แบ่งเป็นติ่งเนื้อชนิด adenoma 262 ติ่งเนื้อ คิดเป็นร้อยละ 52.3 และติ่งเนื้อชนิด hyperplastic 239 ติ่งเนื้อ คิดเป็นร้อยละ 47.7 มีติ่งเนื้อลำไส้ใหญ่ 3 ติ่งเนื้อที่ไม่ถูกตรวจพบโดยระบบ Deep-GI คิดเป็นร้อยละ 0.6 ในขณะที่มีติ่งเนื้อลำไส้ใหญ่ 73 ติ่งเนื้อที่ไม่ถูกตรวจพบโดยระบบ CAD EYE คิดเป็นร้อยละ 14.6 ซึ่งสูงกว่าอย่างมีนัยยะสำคัญทางสถิติ (p<0.01, ตามลำดับ) และยังพบว่า อัตราการพบผลบวกลวง (False positive alarm rate) น้อยกว่า 5 ครั้ง/การส่องกล้องลำไส้ใหญ่ในทั้ง 2 ระบบและ อัตราการพบผลบวกลวงในระบบ CAD EYE จะสูงกว่าระบบ Deep-GI อย่างมีนัยยะสำคัญทางสถิติเมื่อปรับเกณฑ์ชี้วัดสำหรับผลบวกลวงเป็น ≤ 1.5 วินาทีแต่อัตราการไม่พบ ติ่งเนื้อลำไส้ใหญ่จะเพิ่มสูงขึ้นเป็น 10-25% ถ้าปรับค่าเกณฑ์ชี้วัดสำหรับผลบวกลวงเป็น ≥1.5 วินาที สรุปผลการวิจัย: การศึกษานี้พบว่า เมื่อเปรียบเทียบประสิทธิภาพระหว่างระบบคอมพิวเตอร์ปัญญาประดิษฐ์2 ระบบ ในการการช่วยตรวจจับติ่งเนื้อลำไส้ ใหญ่ ระบบ Deep-GI มีอัตราการตรวจพบติ่งเนื้อลำไส้ใหญ่ (overall polyp detection rate) ที่สูงกว่า ในขณะที่ทำให้เกิดผลบวกลวงน้อยกว่า ที่เกณฑ์ชี้วัดสำหรับผลบวกลวง ≥0.5 วินาที และ ≥1 วินาทีอย่างมีนัยยะสำคัญทางสถิติค่าเกณฑ์ชี้วัดสำหรับผลบวกลวงที่ ≥1 วินาทีเป็นค่าเกณฑ์ชี้วัดที่เหมาะสมสำหรับระบบ Deep-GI และ CAD EYE เนื่องจากเป็นค่าที่ทำให้อัตราการไม่พบติ่งเนื้อลำไส้ใหญ่ (polyp miss rate) และเกิดผลบวกลวงต่ำที่สุด

Other Abstract (Other language abstract of ETD)

BACKGROUND AND AIMS: High false positive (FP) rate in artificial intelligence (AI)-assisted colonoscopy for polyp detection can induce visual disturbance, unnecessary checking on non-pathological areas, and prolonged procedural time. However, a higher FP threshold inevitably results in decreased polyp detection sensitivity. This study aims to compare diagnostic performance between our newly developed AI model and previously validated AI-based computer-aided polyp detection (CADe) system using optimal FP thresholds. METHODS: We developed an AI software for polyp detection, “Deep-GI”, using a convolutional neural network based on the YOLOv5 deep learning framework. Deep-GI was trained and tested using 15,188 and 1,520 colonoscopy images, respectively. Consecutive screening colonoscopy videos were collected prospectively at our center. Two AI models, the validated CADe system (CAD EYETM; Fujifilm, Tokyo, Japan) and our Deep-GI system, were run and analyzed on each video. The AI-labeled videos were independently reviewed by two experienced gastroenterologists. True positive was defined as a polyp detected by AI that both gastroenterologists confirmed. Another senior gastroenterologist resolved any disagreement. Polyp detection rates, polyp miss rates, and FP rates were calculated and compared using different FP thresholds (≥0.5 seconds, ≥1 second, ≥1.5 seconds, and ≥2 seconds) for the duration of an alert box appearing on the screen. RESULTS: A total of 170 colonoscopies from 170 patients were enrolled. Mean withdrawal time was 7.8 ± 2.7 min. A total of 501 polyps (52.3% adenomatous polyps, n=262) were detected in 137 colonoscopies. Three polyps (0.6%) were missed by Deep-GI, and 73 polyps (14.6%) were missed by CADe with a statistically significant difference; p<0.01. Sixty-four (85%) of the missed polyps were <5 mm, while 2.7% were 5-10 mm hyperplastic polyps. When compared to the validated CADe model, Deep-GI demonstrated higher polyp detection rate (99.4% vs. 85.4%; p<0.01), lower polyp miss rate (0.6% vs. 14.6%; p<0.01), and lower FP alarm per colonoscopy (349 ± 169 vs. 624 ± 468; p<0.01). There was a significant difference in adenoma detection between both systems in FP threshold ≥0.5, and ≥1 second. Deep-GI has a significantly higher overall polyp detection rate with lower FP alarm than CADe at ≥0.5, and ≥1 second of FP threshold (99.4% vs. 85%; p<0.01 and 98% vs. 84.2%; p<0.01, respectively). The false-positive-alarm rates were lower than 5 frames/colonoscopy in both groups for all FP thresholds with significantly higher FP rate in the CADe system when the FP threshold was ≤1.5 seconds. The polyp miss rate increased to 10-25% as FP thresholds were adjusted to ≥1.5 second. CONCLUSION: Compared to a validated CADe system, Deep-GI demonstrated a higher overall polyp detection rate with significantly lower false positive alarm at ≥0.5 and ≥1 second thresholds. The ≥1 second threshold was optimal for the Deep-GI model and CADe system as it provided the lowest polyp miss rate and false positive alarm for each system.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.