Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Deep learning model for fine-grained visual classification
Year (A.D.)
2021
Document Type
Thesis
First Advisor
บุญเสริม กิจศิริกุล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมคอมพิวเตอร์
DOI
10.58837/CHULA.THE.2021.955
Abstract
การจำแนกประเภทภาพแบบละเอียดเป็นปัญหาการจำแนกประเภทภาพที่อยู่ในหมวดหมู่หลักเดียวกัน เช่น ชนิดของนก, รุ่นของรถยนต์และรุ่นของเครื่องบิน โดยปัญหาหลักของการจำแนกประเภทภาพแบบละเอียดคือมีความผันผวนภายในประเภทและความเหมือนระหว่างประเภทสูง ทำให้งานวิจัยส่วนใหญ่มุ่งเน้นไปที่การระบุตำแหน่งของวัตถุหรือชิ้นส่วนสำคัญของภาพด้วยการออกแบบโครงสร้างแบบจำลองที่มีความซับซ้อนเพื่อแก้ปัญหาดังกล่าว ในงานวิจัยนี้ได้นำเสนอวิธีการเพิ่มประสิทธิภาพของความแม่นยำในการจำแนกประเภทซึ่งประกอบด้วยแบบจำลองสองระดับที่ทำหน้าที่แยกกันในการระบุตำแหน่งและจำแนกประเภท โดยการระบุตำแหน่งวัตถุทำหน้าที่หาพื้นที่ในรูปภาพที่มีวัตถุอยู่ด้วยสมมติฐานพื้นที่ต่อเนื่องที่มีขนาดใหญ่ที่สุดบนการรวมของผังฟีเจอร์ ซึ่งสกัดมาจากหลังจากคอนโวลูชันนิวรอลเน็ตเวิร์ค หลังจากนั้นในขั้นตอนการจำแนกประเภท ได้ปรับปรุงฟังก์ชันสูญเสียค่าสูงสุดอย่างอ่อนด้วยการเพิ่มมาจินเชิงมุมปรับค่าได้ในค่ามุมระหว่างฟีเจอร์เวกเตอร์และเวกเตอร์ศูนย์กลางประจำแต่ละประเภทในระหว่างการฝึกสอนแบบจำลอง วิธีการในงานวิจัยนี้สามารถฝึกสอนแบบจำลองได้แบบเอ็นทูเอ็นโดยไม่ต้องใช้กล่องขอบเขตในการฝึกสอนเพิ่มเติม ทั้งนี้ผลการทดลองแสดงให้เห็นว่า เทคนิคที่งานวิจัยนี้นำมาใช้มีประสิทธฺภาพที่ดีบนชุดข้อมูลสามชุดที่มีการใช้อย่างกว้างขวางในการทดลองเกี่ยวกับการจำประแนกประเภทภาพแบบละเอียด
Other Abstract (Other language abstract of ETD)
Fine-grained visual classification (FGVC) is image categorization task belonging to multiple sub-categories within a same category. It is a challenge task due to high intra-class variance and inter-class similarity. Most exiting methods pay attention to capturing discriminative semantic parts by generate complex model structure. In this research, we propose new methods for improve the classification performance called Efficient Image Embedding, which is integration of two steps model as a localization-classification sub-network, which included localization approach and loss function. The localization approach is used to identify the object region from fine-grained image using concept of the largest component of the feature channel aggregation in an unsupervised fashion. Then classification sub-network following with the loss function, which enhance the discriminative power of the softmax loss by added adaptive penalize to the ground-truth of image in the training state. Our approach can be trained in an end-to-end manner, without the need for any bounding-box/part annotations. Experiment results show our Efficient Image Embedding when implement with base deep convolutional neural architecture can achieve competitive performance on three fine-grained classification datasets.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
พยัตศุภร, สรนันท์, "แบบจำลองการเรียนรู้เชิงลึกสำหรับการจำแนกประเภทภาพแบบละเอียด" (2021). Chulalongkorn University Theses and Dissertations (Chula ETD). 5497.
https://digital.car.chula.ac.th/chulaetd/5497