Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Deep learning model for fine-grained visual classification

Year (A.D.)

2021

Document Type

Thesis

First Advisor

บุญเสริม กิจศิริกุล

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2021.955

Abstract

การจำแนกประเภทภาพแบบละเอียดเป็นปัญหาการจำแนกประเภทภาพที่อยู่ในหมวดหมู่หลักเดียวกัน เช่น ชนิดของนก, รุ่นของรถยนต์และรุ่นของเครื่องบิน โดยปัญหาหลักของการจำแนกประเภทภาพแบบละเอียดคือมีความผันผวนภายในประเภทและความเหมือนระหว่างประเภทสูง ทำให้งานวิจัยส่วนใหญ่มุ่งเน้นไปที่การระบุตำแหน่งของวัตถุหรือชิ้นส่วนสำคัญของภาพด้วยการออกแบบโครงสร้างแบบจำลองที่มีความซับซ้อนเพื่อแก้ปัญหาดังกล่าว ในงานวิจัยนี้ได้นำเสนอวิธีการเพิ่มประสิทธิภาพของความแม่นยำในการจำแนกประเภทซึ่งประกอบด้วยแบบจำลองสองระดับที่ทำหน้าที่แยกกันในการระบุตำแหน่งและจำแนกประเภท โดยการระบุตำแหน่งวัตถุทำหน้าที่หาพื้นที่ในรูปภาพที่มีวัตถุอยู่ด้วยสมมติฐานพื้นที่ต่อเนื่องที่มีขนาดใหญ่ที่สุดบนการรวมของผังฟีเจอร์ ซึ่งสกัดมาจากหลังจากคอนโวลูชันนิวรอลเน็ตเวิร์ค หลังจากนั้นในขั้นตอนการจำแนกประเภท ได้ปรับปรุงฟังก์ชันสูญเสียค่าสูงสุดอย่างอ่อนด้วยการเพิ่มมาจินเชิงมุมปรับค่าได้ในค่ามุมระหว่างฟีเจอร์เวกเตอร์และเวกเตอร์ศูนย์กลางประจำแต่ละประเภทในระหว่างการฝึกสอนแบบจำลอง วิธีการในงานวิจัยนี้สามารถฝึกสอนแบบจำลองได้แบบเอ็นทูเอ็นโดยไม่ต้องใช้กล่องขอบเขตในการฝึกสอนเพิ่มเติม ทั้งนี้ผลการทดลองแสดงให้เห็นว่า เทคนิคที่งานวิจัยนี้นำมาใช้มีประสิทธฺภาพที่ดีบนชุดข้อมูลสามชุดที่มีการใช้อย่างกว้างขวางในการทดลองเกี่ยวกับการจำประแนกประเภทภาพแบบละเอียด

Other Abstract (Other language abstract of ETD)

Fine-grained visual classification (FGVC) is image categorization task belonging to multiple sub-categories within a same category. It is a challenge task due to high intra-class variance and inter-class similarity. Most exiting methods pay attention to capturing discriminative semantic parts by generate complex model structure. In this research, we propose new methods for improve the classification performance called Efficient Image Embedding, which is integration of two steps model as a localization-classification sub-network, which included localization approach and loss function. The localization approach is used to identify the object region from fine-grained image using concept of the largest component of the feature channel aggregation in an unsupervised fashion. Then classification sub-network following with the loss function, which enhance the discriminative power of the softmax loss by added adaptive penalize to the ground-truth of image in the training state. Our approach can be trained in an end-to-end manner, without the need for any bounding-box/part annotations. Experiment results show our Efficient Image Embedding when implement with base deep convolutional neural architecture can achieve competitive performance on three fine-grained classification datasets.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.