Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A comparison of 3d convolution neural networks for brain stroke classification with CT scan images

Year (A.D.)

2022

Document Type

Thesis

First Advisor

อัครินทร์ ไพบูลย์พานิช

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2022.954

Abstract

แบบจำลองโครงข่ายคอนโวลูชัน หรือ ซีเอ็นเอ็น (Convolutional Neural Networks หรือ CNN) ได้รับการนำมาใช้กันอย่างแพร่หลายในการจำแนกภาพ โดยเฉพาะในทางการแพทย์ ซึ่งปกติการจำแนกภาพทางการแพทย์นิยมใช้โครงข่ายคอนโวลูชั่น 2 มิติ แต่เนื่องจากข้อมูลภาพบางประเภท เช่น ภาพการฉายรังสีเอกซเรย์สมองมีลักษณะมองภาพ 3 มิติ ให้เป็นภาพ 2 มิติ ดังนั้นในงานวิจัยนี้จึงมีแนวคิดในการใช้โครงข่ายคอนโวลูชัน 3 มิติมาใช้ในการจำแนกภาพเพื่อนำเอาจุดเด่นจากความสามารถในการดึงคุณลักษณะความสัมพันธ์ในชั้นความลึกที่เพิ่มเข้ามาซึ่งมีความแตกต่างจากรูปแบบ 2 มิติ เพื่อเพิ่มประสิทธิภาพให้แบบจำลองสามารถดึงคุณลักษณะสำคัญของภาพให้มีความหลากหลายมากขึ้น งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพโครงข่ายคอนโวลูชัน 3 มิติ ร่วมกับแบบจำลองที่ถูกฝึกมาเรียบร้อยแล้ว (pre-trained model) 4 แบบจำลอง ประกอบไปด้วย อเล็กซ์เน็ต (Alexnet) วีจีจี-16 (Vgg-16) กูเกิลเน็ต (Googlenet) และเรสเน็ต (Resnet) เพื่อจำแนกข้อมูลภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมอง และผู้ป่วยที่มีสุขภาพปกติ จากภาพฉายรังสีเอกซเรย์สมอง (CT-Scan) จากฐานข้อมูลเว็บไซด์ Kaggle ชุดข้อมูลประกอบด้วยภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมอง 950 ภาพ จาก 40 คน และภาพผู้ป่วยสุขภาพปกติ 1551 ภาพ จาก 82 คน ซึ่งงานวิจัยนี้มีการปรับรายละเอียดโดยการนำจุดเด่นของแต่ละแบบจำลองมาใช้ และเพิ่มชั้นความลึกที่เป็นจุดเด่นของการค้นหาคุณลักษณะสำคัญของรูปแบบ 3 มิติ ร่วมกับการประมวลผลภาพล่วงหน้า (Image Preprocessing) และการทำการเพิ่มจำนวนข้อมูล (Data augmentation) เพื่อเพิ่มประสิทธิภาพของแบบจำลอง จากนั้นเพื่อไม่ให้การทดลองโน้มเอียงต่อแต่ละแบบจำลอง มีการนำเทคนิค K-Fold Cross validation (K=5) มาเพื่อแก้ปัญหาในงานวิจัยชิ้นนี้ ในส่วนของการวัดประสิทธิภาพผลการทดลองใช้ Confusion matrix เป็นเครื่องมือในการประเมินประสิทธิภาพของแบบจำลอง ซึ่งพบว่าสมรรถนะแบบจำลองโครงข่ายคอนโวลูชันกูเกิลเน็ต 3 มิติ ให้ผลลัพธ์ที่ดีที่สุด โดยผลการทดสอบการจำแนกภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมองจากภาพฉายรังสีเอกซเรย์ ให้ค่าความแม่นยำ ความเที่ยงตรง ค่าความครบถ้วน และ F1-Score ที่ 92.00% 94.01% 83.96% และ 88.70% ตามลำดับ ซึ่งงานวิจัยนี้เห็นได้ว่าการนำโครงข่ายคอนโวลูชันรูปแบบ 3 มิติ มาใช้ร่วมกับการจำแนกภาพที่นำเสนอมีความหวังที่สามารถนำไปพัฒนาต่อได้ในอนาคต

Other Abstract (Other language abstract of ETD)

Convolutional Neural Network (CNN) has been widely applied for image classification especially in the medical industry. Normally, the image classification technique used in the industry is 2D convolution neural networks. However, some image data, including brain X-rays, required converting 3D images to 2D images. Therefore, the aims of this research will apply 3D-CNN as a classification method to apply its in-depth correlational characteristics features to differentiate the processing from 2D-CNN. This approach enhances the efficiency of the model in capturing diverse and important features of the images. This research presents 3D convolution neural networks with 4 pre-trained models: Alexnet, VGG-16, Googlenet and Resnet to classify the image data of patients who have had a stroke and patients who haven’t had a stroke from CT-Scan images from the website: Kaggle. For the dataset, there were 950 images of 40 stroke patients and 1551 images of 82 normal individuals. This research has been fine-tuned by using the strengths of each model and adds a distinctive layer of depth to find key features of the 3D model, along with image preprocessing and data augmentation to increase model efficiency. This research also applied K-Fold cross validation techniques to resolve the bias in each model. Finally, the confusion matrix was used to evaluate the performance of the models. Googlenet 3D was found to produce the best results, with accuracy, precision, recall and F1-scores at 92.00%, 94.01, 83.96% and 88.70% respectively. This research shows that the use of a 3D convolution network with an image classification approach should be further developed to benefit research in the future.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.