Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การศึกษาเปรียบเทียบระหว่างการรวมข้อมูลแบบตอนต้นและโครงข่ายประสาทเทียมแฝดสยามที่ทำงานกับข้อมูลภาพและข้อความในการจำแนกประเภทอาหาร
Year (A.D.)
2024
Document Type
Thesis
First Advisor
Seksan Kiatsupaibul
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Statistics and Data Science
DOI
10.58837/CHULA.THE.2024.1362
Abstract
The economic development under capitalism has significantly transformed people's lifestyles, resulting in a fast-paced daily life. This shift has increased the consumption of convenient food options, leading to a preference for fast food, which is often high in carbohydrates and fats. Consequently, there has been a rise in obesity and related health issues, highlighting the importance of monitoring food intake. Automated systems utilizing artificial intelligence (AI) have emerged as potent tools for providing personalized dietary advice and monitoring. With the growing volume of food-related content on social media, including images and accompanying text, leveraging multimodal data has become essential for more accurate predictions. This study aims to compare two data fusion techniques for food classification: early fusion and the Multimodal Siamese Neural Network (mSNN), using the UPMCFood-101 dataset. However, this research focuses specifically on three categories: bread pudding, chicken wings, and waffles. The experimental results demonstrate that the early fusion technique achieved an overall accuracy of 0.960. In contrast, the mSNN, trained with 72,000 pairs, achieved a maximum overall accuracy of 0.976 when tested on a database containing 1 image and text per class, outperforming the early fusion technique in terms of accuracy. However, the performance of the mSNN declined when tested on databases with a larger number of images and text per class due to the impact of average distance calculations, leading to reduced accuracy. These findings suggest that while the mSNN provides higher accuracy when tested on smaller databases, the early fusion technique also demonstrates potential for scalability.
Other Abstract (Other language abstract of ETD)
การพัฒนาเศรษฐกิจภายใต้ระบบทุนนิยมได้เปลี่ยนแปลงวิถีชีวิตของผู้คนอย่างมาก ส่งผลให้ชีวิตประจำวันเต็มไปด้วยความเร่งรีบ ทำให้การบริโภคอาหารที่คำนึงถึงความสะดวกรวดเร็วเพิ่มขึ้น ดังนั้นผู้คนนิยมบริโภคอาหารจานด่วน (fast food) ซึ่งมักมีคาร์โบไฮเดรตและไขมันสูง ก่อให้เกิดปัญหาโรคอ้วนและปัญหาสุขภาพที่เกี่ยวข้อง ดังนั้น ความสำคัญของการติดตามการบริโภคอาหารจึงได้รับการยอมรับมากขึ้น ทำให้ระบบอัตโนมัติที่ใช้ปัญญาประดิษฐ์ (AI) กลายเป็นเครื่องมือที่มีศักยภาพในการให้คำแนะนำและติดตามโภชนาการเฉพาะบุคคล ด้วยปริมาณเนื้อหาเกี่ยวกับอาหารที่เพิ่มขึ้นบนโซเชียลมีเดีย ทำให้มีข้อมูลภาพประกอบข้อความที่แนบมาด้วย การใช้ข้อมูลหลายรูปแบบ (multimodal data) จะช่วยสามารถพยากรณ์ที่แม่นยำยิ่งขึ้น โดยงานวิจัยนี้มุ่งเปรียบเทียบเทคนิคการรวมข้อมูลสองรูปแบบสำหรับการจำแนกประเภทอาหาร ได้แก่ การรวมข้อมูลแบบตอนต้น (Early fusion) และการรวมข้อมูลแบบโครงข่ายประสาทเทียมแฝดสยาม (Multimodal Siamese Neural Network)โดยใช้ชุดข้อมูล UPMCFood-101 แต่ในการศึกษานี้จะเน้นเฉพาะ 3 หมวดหมู่: พุดดิ้งขนมปัง, ปีกไก่ และวาฟเฟิล ผลการทดลองแสดงให้เห็นว่าเทคนิคการรวมข้อมูลแบบตอนต้น ให้ความแม่นยำโดยรวมที่ 0.960 ในขณะที่การรวมข้อมูลแบบโครงข่ายประสาทเทียมแฝดสยาม ที่ถูกฝึกด้วยคู่ข้อมูล 72,000 คู่ เมื่อทดสอบกับฐานข้อมูลที่มีภาพและข้อความอย่างละ 1 รายการต่อหมวดหมู่ สามารถให้ความแม่นยำโดยรวมสูงสุดที่ 0.976 ซึ่งให้ผลลัพธ์ที่ดีกว่าเทคนิคการรวมข้อมูลแบบตอนต้น อย่างไรก็ตามประสิทธิภาพการรวมข้อมูลแบบโครงข่ายประสาทเทียมแฝดสยามลดลงเมื่อทดสอบกับฐานข้อมูลที่มีภาพและข้อความต่อหมวดหมู่จำนวนมาก เนื่องจากผลกระทบที่มาจากการคำนวณระยะทางเฉลี่ย ส่งผลให้ความแม่นยำลดลง ผลการศึกษานี้ชี้ให้เห็นว่าแม้ว่าการรวมข้อมูลแบบโครงข่ายประสาทเทียมแฝดสยาม จะมีความแม่นยำมากกว่าเมื่อทดสอบกับฐานข้อมูลขนาดเล็ก แต่เทคนิคการรวมข้อมูลแบบตอนต้นมีศักยภาพในการขยายผล
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Sintarasirikulchai, Kanokporn, "A comparative study of early fusion and multimodal Siamese neural network using image and text data in food classification" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 75015.
https://digital.car.chula.ac.th/chulaetd/75015