Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
เทคนิคการสร้างคืนภาพความละเอียดสูงยิ่งยวดโดยใช้อินเซฟชันเชิงลึกภายใต้โครงค่ายแบบตกค้าง
Year (A.D.)
2018
Document Type
Thesis
First Advisor
Supavadee Aramvith
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Electrical Engineering (ภาควิชาวิศวกรรมไฟฟ้า)
Degree Name
Doctor of Engineering
Degree Level
Doctoral Degree
Degree Discipline
Electrical Engineering
DOI
10.58837/CHULA.THE.2018.1563
Abstract
Recently, deep Convolutional Neural Networks (CNN) have achieved exceptional performance over the past few years, in the area of image processing and computer vision task, especially on single image super-resolution (SISR). It is an immensely challenging task and has multiple practical applications, such as medical image processing, satellite imaging, facial image enhancement, and compressed image improvement. However, the majority of the existing image super-resolution CNN-based methods have been developed by stacking an innumerable number of layers and blindly increasing the size of the network architecture. Conversely, this leads to an increase in the model sizes and higher computational complexities. Furthermore, recent SISR methods use artificially bicubic interpolation as a pre-processing task to upscale the low-resolution image, resulting in the creation of undesired noises in the model and ringing jagged artifacts in the reconstructed high-resolution image. Additionally, existing methods have a high computational cost and relatively additional memory consumption. In this thesis work, an innovative single image super-resolution technique has been proposed using asymmetric skip connection block and inception based block-based approach. This technique has been envisioned with the aim of increasing the computational efficiency of the model as well as enhancing the perceptual quality of the low-resolution image. More importantly, the residual skip connection has been used to alleviate the vanishing/exploding gradient problems in the training, when the network goes deeper. With the aim of having effective and efficient training, the bicubic interpolation has been replaced with a learnable upsampling method (i.e., transposed convolution layer) on the skip connection branch as an upsampling layer in the model. Additionally, for faster convergence and higher performance, the rectified linear unit (ReLU) has been applied after every CNN layer. Our architecture has four stages namely feature extraction, upsampling, multi-scale reconstruction stage-I, and multi-scale reconstruction stage-II. In order to have a quantitative comparison, the proposed model evaluates the performance of using two quality metrics, either PSNR and SSIM along with a number of parameters. The evaluation of our proposed model is fundamentally based on five benchmark data sets, Set5, Set14, BSDS100, Urban100, and Manag109 datasets. The proposed asymmetric convolution operation could help to reduce the computational cost of the model by 64%. Extensive experiments have been performed on publicly available benchmark datasets, to demonstrate the effectiveness of our proposed method as compared to other state-of-the-art super-resolution methods in accuracy and get finer texture details.
Other Abstract (Other language abstract of ETD)
ในปัจจุบันโครงค่ายประสาทคอนโวลูชันเชิงลึกมีประสิทธิภาพดีกว่าหลายปีที่ผ่านมา โดยมีการใช้ในงานทางด้านคอมพิวเตอร์วิทัศน์และการประมวลผลภาพ โดยเฉพาะการสร้างภาพความละเอียดสูงยิ่งยวดที่มีความท้าทายเป็นอย่างมาก รวมถึงการนำไปใช้งานในทางปฏิบัติหลากหลายด้าน อาทิ การประมวลผลภาพทางการแพทย์ การถ่ายภาพดาวเทียม การปรับปรุงภาพใบหน้า และการปรับปรุงการบีบอัดของภาพ อย่างไรก็ตาม วิธีการส่วนใหญ่ที่ใช้สร้างภาพความละเอียดสูงสุดภายใต้โครงค่ายประสาทคอนโวลูชันเชิงลึก ได้รับการพัฒนาโดยการเพิ่มจำนวนชั้นโครงค่าย และเพิ่มขนาดของโครงค่ายแบบสุ่ม ในทางกลับกันสิ่งนี้ทำให้ขนาดของโมเดลใหญ่ขึ้นและเพิ่มความซับซ้อนของการประมวลผล ทั้งนี้การสร้างภาพความละเอียดสูงยิ่งยวดมีการใช้วิธีการประมาณค่าในช่วงแบบไบคิวบิกในขั้นตอนการประมวลผลเบื้องต้น ซึ่งทำให้เกิดสัญญาณรบกวนขึ้นภายในโมเดลและทำให้ภาพขรุขระ นอกจากนี้แล้ว วิธีการที่มีอยู่ในปัจจุบันใช้เวลาในการประมวลสูงและใช้หน่วยความจำเป็นจำนวนมาก ในดุษฎีนิพนธ์นี้ ได้นำเสนอการปรับปรุงเทคนิคการสร้างภาพความละเอียดสูงยิ่งยวดโดยใช้บล็อกการเชื่อมต่อแบบข้ามอสมมาตรและวิธีบล็อกอินเซฟชัน โดยมีจุดประสงค์เพื่อเพิ่มประสิทธิภาพในการคำนวณของตัวโมเดลรวมทั้งเพิ่มคุณภาพของภาพให้ดียิ่งขึ้น ที่สำคัญกว่านั้น มีการใช้การเชื่อมต่อแบบข้ามส่วนที่ตกค้างในขั้นตอนการสร้างโมเดลเพื่อลดขนาดและการกระจายของเกรเดียนต์เมื่อโมเดลมีความซับซ้อนมากขึ้น ทั้งนี้เพื่อให้การเรียนรู้ของโมเดลมีประสิทธิภาพ มีการใช้วิธีการการเรียนรู้แบบเพิ่มขนาด เช่น ชั้นคอนโวลูชันแบบสลับ มาใช้แทนที่วิธีการประมาณค่าในช่วงแบบไบคิวบิกในส่วนของการเชื่อมต่อแบบข้ามให้กลายเป็นชั้นการเพิ่มขนาดในโมเดล นอกจากนี้ เพื่อให้การประมวลผลมีความรวดเร็วและมีประสิทธิภาพสูงขึ้น เราใช้การปรับหน่วยเชิงเส้นกับทุก ๆ ชั้นของโครงค่ายประสาทคอนโวลูชันเชิงลึก สถาปัตยกรรมของเราประกอบไปด้วยสี่ขั้นตอนหลัก คือ การแยกคุณลักษณะ การเพิ่มขนาด การสร้างคืนแบบหลายขนาดขั้นตอนที่หนึ่ง และการสร้างคืนแบบหลายขนาดขั้นตอนที่สอง ในส่วนของการเปรียบเทียบประสิทธิภาพของโมเดลที่เรานำเสนอนั้น จะใช้เมตริกคุณภาพสองแบบ คือ PSNR และ SSIM พร้อมด้วยจำนวนของพารามิเตอร์ กับฐานข้อมูลภาพเกณฑ์มาตรฐานห้าชุด คือ Set5, Set14, BSDS100, Urban100 และ Manag109 ซึ่งการทำงานของการคอนโวลูชันแบบอสมมาตรนั้นช่วยลดการประมวลผลของโมเดลได้ถึง 64% ผลการทดลองกับฐานข้อมูลมาตรฐานแสดงให้เห็นถึงประสิทธิภาพของวิธีการของเราเมื่อเปรียบเทียบกับวิธีการอื่นในส่วนของความถูกต้องและรายละเอียดพื้นผิวที่มีความละเอียดมากยิ่งขึ้น
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Muhammad, Wazir, "Image super-resolution technique using deep inception based residual networks" (2018). Chulalongkorn University Theses and Dissertations (Chula ETD). 13435.
https://digital.car.chula.ac.th/chulaetd/13435