Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Attentional fine-grained network for food image categorization
Year (A.D.)
2019
Document Type
Thesis
First Advisor
พีรพล เวทีกูล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2019.1139
Abstract
ในปัจจุบัน มีจำนวนรูปภาพอาหารมากมายที่ถูกอัพโหลดผ่านเครือข่ายสังคม โดยรูปภาพส่วนหนึ่งไม่ได้รับการระบุป้ายชื่ออาหาร การใช้แอปพลิเคชันสำหรับการจำแนกประเภทรูปภาพของอาหาร สามารถช่วยระบุป้ายชื่อ และจัดจำแนกประเภทของรูปภาพอาหารเหล่านั้นได้ ปัญหาของงานจำแนกประเภทของรูปภาพอาหาร จัดเป็นงานที่ค่อนข้างมีความซับซ้อน เนื่องจากจำนวนของประเภทอาหารมีมากกว่าหนึ่งร้อยประเภท และอาหารบางประเภทยังมีลักษณะที่แตกต่างกันเล็กน้อย ไม่ว่าจะเป็นประเภทของส่วนผสม หรือลักษณะการจัดวางจาน ซึ่งปัญหาเหล่านี้นำไปสู่งานที่เรียกว่า งานจำแนกประเภทรูปภาพแบบละเอียด (Fine-grained Image Classification) ในปัจจุบันแบบจำลองนิวรอลเน็ตเวิร์กแบบคอนโวลูชันเชิงเส้นคู่ (Bilinear Convolutional Neural Networks หรือ B-CNN) ถูกนำมาใช้ในการจำแนกประเภทของรูปภาพอาหาร เนื่องจากแบบจำลองนี้มีความแม่นยำในการจำแนกประเภทของรูปภาพสูง และสามารถสกัดลักษณะของรูปภาพออกมาอย่างหลากหลาย เพื่อโฟกัสรายละเอียดของอาหารในแต่ละประเภท แต่เนื่องจากคุณลักษณะของรูปภาพที่ถูกสกัดมานั้น บางลักษณะอาจจะไม่ได้มีความสำคัญต่อรูปภาพนั้น ๆ ด้วยเหตุผลดังกล่าว งานวิจัยนี้จึงได้นำเสนอกลไกจุดสนใจ (Attention Mechanism) มาสกัดลักษณะที่จำเพาะของรูปภาพอาหารในแต่ละประเภท อีกทั้งงานวิจัยนี้เลือกคอนโวลูชันเน็ตเวิร์กที่มีประสิทธิภาพในการจำแนกประเภทของรูปภาพดีกว่าคอนโวลูชันเน็ตเวิร์กแบบอื่น ๆ ในปัจจุบัน คือ อินเซ็บชันเวอร์ชันสาม และ อินเซ็บชันเรสเน็ตเวอร์ชันสอง (Inception-Resnet-v2 หรือ In-res-v2) มาเป็นตัวสกัดลักษณะของรูปภาพ โดยงานวิจัยนี้ได้ทำการทดลองกับชุดข้อมูลเชิงรูปภาพ จาก Wongnai ซึ่งเป็นแอปพลิเคชันสำหรับการอัปโหลดรูปภาพอาหาร โดยผลการทดลองพบว่าแบบจำลองที่ได้นำเสนอ มีประสิทธิภาพในการจำแนกประเภทของรูปภาพอาหารได้อย่างถูกต้องแม่นยำมากขึ้นเมื่อเปรียบเทียบกับแบบจำลองอื่น ๆ
Other Abstract (Other language abstract of ETD)
Nowadays, many food images are posted on various social network platforms without identification labels. An automatic food categorization application would greatly help to identify and classify food categories. Food categorization is a complex problem since the number of category types can be more than one hundred. Many kinds of food are similar with only subtle differences in taste and presentation and this can lead to a problem called “fine-grained issue”. Recently, a bilinear model was employed which showed good accuracy and generated excessive features to capture details among different food categories, albeit with limited performance. Diverse food categories require disparate sets of features. Here, an attention mechanism was applied to capture suitable features and specifically identify each food category. Furthermore, the performance of a bilinear backbone was also enhanced by applying Inception in correlation with Inception-ResNet-v2 and Inception-v3 networks. The experiment was conducted on the Wongnai dataset containing various images that were separated into 83 classes. Results showed that our attentional model outperformed the traditional bilinear model.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
นุชศิริ, วศิณี, "กลไกจุดสนใจแบบเน็ตเวิร์กละเอียดสำหรับการจำแนกประเภทของรูปภาพอาหาร" (2019). Chulalongkorn University Theses and Dissertations (Chula ETD). 9515.
https://digital.car.chula.ac.th/chulaetd/9515