Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
A comparison of 3d convolution neural networks for brain stroke classification with CT scan images
Year (A.D.)
2022
Document Type
Thesis
First Advisor
อัครินทร์ ไพบูลย์พานิช
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2022.954
Abstract
แบบจำลองโครงข่ายคอนโวลูชัน หรือ ซีเอ็นเอ็น (Convolutional Neural Networks หรือ CNN) ได้รับการนำมาใช้กันอย่างแพร่หลายในการจำแนกภาพ โดยเฉพาะในทางการแพทย์ ซึ่งปกติการจำแนกภาพทางการแพทย์นิยมใช้โครงข่ายคอนโวลูชั่น 2 มิติ แต่เนื่องจากข้อมูลภาพบางประเภท เช่น ภาพการฉายรังสีเอกซเรย์สมองมีลักษณะมองภาพ 3 มิติ ให้เป็นภาพ 2 มิติ ดังนั้นในงานวิจัยนี้จึงมีแนวคิดในการใช้โครงข่ายคอนโวลูชัน 3 มิติมาใช้ในการจำแนกภาพเพื่อนำเอาจุดเด่นจากความสามารถในการดึงคุณลักษณะความสัมพันธ์ในชั้นความลึกที่เพิ่มเข้ามาซึ่งมีความแตกต่างจากรูปแบบ 2 มิติ เพื่อเพิ่มประสิทธิภาพให้แบบจำลองสามารถดึงคุณลักษณะสำคัญของภาพให้มีความหลากหลายมากขึ้น งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพโครงข่ายคอนโวลูชัน 3 มิติ ร่วมกับแบบจำลองที่ถูกฝึกมาเรียบร้อยแล้ว (pre-trained model) 4 แบบจำลอง ประกอบไปด้วย อเล็กซ์เน็ต (Alexnet) วีจีจี-16 (Vgg-16) กูเกิลเน็ต (Googlenet) และเรสเน็ต (Resnet) เพื่อจำแนกข้อมูลภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมอง และผู้ป่วยที่มีสุขภาพปกติ จากภาพฉายรังสีเอกซเรย์สมอง (CT-Scan) จากฐานข้อมูลเว็บไซด์ Kaggle ชุดข้อมูลประกอบด้วยภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมอง 950 ภาพ จาก 40 คน และภาพผู้ป่วยสุขภาพปกติ 1551 ภาพ จาก 82 คน ซึ่งงานวิจัยนี้มีการปรับรายละเอียดโดยการนำจุดเด่นของแต่ละแบบจำลองมาใช้ และเพิ่มชั้นความลึกที่เป็นจุดเด่นของการค้นหาคุณลักษณะสำคัญของรูปแบบ 3 มิติ ร่วมกับการประมวลผลภาพล่วงหน้า (Image Preprocessing) และการทำการเพิ่มจำนวนข้อมูล (Data augmentation) เพื่อเพิ่มประสิทธิภาพของแบบจำลอง จากนั้นเพื่อไม่ให้การทดลองโน้มเอียงต่อแต่ละแบบจำลอง มีการนำเทคนิค K-Fold Cross validation (K=5) มาเพื่อแก้ปัญหาในงานวิจัยชิ้นนี้ ในส่วนของการวัดประสิทธิภาพผลการทดลองใช้ Confusion matrix เป็นเครื่องมือในการประเมินประสิทธิภาพของแบบจำลอง ซึ่งพบว่าสมรรถนะแบบจำลองโครงข่ายคอนโวลูชันกูเกิลเน็ต 3 มิติ ให้ผลลัพธ์ที่ดีที่สุด โดยผลการทดสอบการจำแนกภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมองจากภาพฉายรังสีเอกซเรย์ ให้ค่าความแม่นยำ ความเที่ยงตรง ค่าความครบถ้วน และ F1-Score ที่ 92.00% 94.01% 83.96% และ 88.70% ตามลำดับ ซึ่งงานวิจัยนี้เห็นได้ว่าการนำโครงข่ายคอนโวลูชันรูปแบบ 3 มิติ มาใช้ร่วมกับการจำแนกภาพที่นำเสนอมีความหวังที่สามารถนำไปพัฒนาต่อได้ในอนาคต
Other Abstract (Other language abstract of ETD)
Convolutional Neural Network (CNN) has been widely applied for image classification especially in the medical industry. Normally, the image classification technique used in the industry is 2D convolution neural networks. However, some image data, including brain X-rays, required converting 3D images to 2D images. Therefore, the aims of this research will apply 3D-CNN as a classification method to apply its in-depth correlational characteristics features to differentiate the processing from 2D-CNN. This approach enhances the efficiency of the model in capturing diverse and important features of the images. This research presents 3D convolution neural networks with 4 pre-trained models: Alexnet, VGG-16, Googlenet and Resnet to classify the image data of patients who have had a stroke and patients who haven’t had a stroke from CT-Scan images from the website: Kaggle. For the dataset, there were 950 images of 40 stroke patients and 1551 images of 82 normal individuals. This research has been fine-tuned by using the strengths of each model and adds a distinctive layer of depth to find key features of the 3D model, along with image preprocessing and data augmentation to increase model efficiency. This research also applied K-Fold cross validation techniques to resolve the bias in each model. Finally, the confusion matrix was used to evaluate the performance of the models. Googlenet 3D was found to produce the best results, with accuracy, precision, recall and F1-scores at 92.00%, 94.01, 83.96% and 88.70% respectively. This research shows that the use of a 3D convolution network with an image classification approach should be further developed to benefit research in the future.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
วรโชติสืบตระกูล, ชานนท์, "การเปรียบเทียบสถาปัตยกรรมโครงข่ายประสาทคอนโวลูชัน 3 มิติ โดยการจำแนกโรคหลอดเลือดสมองจากภาพการฉายรังสีเอกซเรย์สมอง" (2022). Chulalongkorn University Theses and Dissertations (Chula ETD). 6664.
https://digital.car.chula.ac.th/chulaetd/6664