Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
ไปป์ไลน์แบบไม่ชี้แนะสำหรับการตรวจจับวัตถุแบบไม่บอกประเภทโดยใช้ทรานส์ฟอร์เมอร์วิทัศน์แบบชี้แนะตนเองและเครือข่ายโคลโมโกรอฟ-อาร์นอลด์
Year (A.D.)
2024
Document Type
Thesis
First Advisor
Boonserm Kijsirikul
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Computer Science
DOI
10.58837/CHULA.THE.2024.1032
Abstract
Nowadays, object bounding boxes can help create training data for instance segmentation, which is essential for many computer vision applications. However, generating these bounding boxes still relies heavily on manual annotation, making the process costly and time-consuming. To address this, we propose a fully unsupervised four-stage pipeline that automatically generates pseudo-bounding boxes without any human-labeled data. The pipeline includes (1) Background Removal, (2) Pseudo-Bounding Box Generation, (3) Complementary Bounding Box Generation (optional), and (4) Class-Agnostic Detector Training. At the core of this pipeline is KFOUND, which builds upon FOUND, a fast and lightweight method that avoids assumptions about object count or predefined attributes, enabling more flexible object region isolation while remaining competitive with state-of-the-art models. KFOUND integrates Kolmogorov–Arnold Networks to further improve mask quality and interpretability while preserving efficiency. Evaluations on DUTS-TE, DUT-OMRON, and ECSSD demonstrate that KFOUND can enhance mask quality while maintaining fast inference and a lightweight model design, consistent with the goals of FOUND. The resulting pseudo-bounding boxes are then used to train a class-agnostic detector, which shows competitive performance on COCO20K, PASCAL VOC2007, and VOC2012 datasets. While effective, the pipeline may face limitations in handling camouflaged or low-contrast objects. Future work will focus on improving robustness and refining bounding box generation. This pipeline supports scalable and efficient data generation for downstream vision tasks.
Other Abstract (Other language abstract of ETD)
ปัจจุบันกรอบล้อมวัตถุสามารถนำไปสร้างข้อมูลสำหรับฝึกการแบ่งวัตถุเป็นส่วน ซึ่งเป็นหัวใจสำคัญของการประยุกต์ใช้ในงานคอมพิวเตอร์วิทัศน์ อย่างไรก็ตามการสร้างกรอบเหล่านี้ยังคงใช้มนุษย์เป็นผู้กำหนดเป็นหลักส่งผลให้กระบวนการมีค่าใช้จ่ายสูงและใช้เวลานาน เพื่อแก้ปัญหานี้เราเสนอขั้นตอนขั้นตอนการสร้างกรอบล้อมวัตถุเทียมแบบอัตโนมัติโดยปราศจากการกำหนดโดยมนุษย์ ซึ่งขั้นตอนประกอบไปด้วย (1) การกำจัดพื้นหลัง (2) การสร้างกล่องล้อมรอบเทียม (3) การสร้างกล่องล้อมรอบเสริม (ไม่บังคับ) (4) การสอนตัวตรวจจับวัตถุโดยไม่จำแนกประเภท หัวใจสำคัญของขั้นตอนวิธีคือ KFOUND ซึ่งพัฒนาต่อยอดจาก FOUND วิธีการแยกพื้นที่วัตถุที่รวดเร็ว ใช้ทรัพยากรน้อย และไม่ตั้งสมมติฐานเกี่ยวกับจำนวนวัตถุหรือคุณลักษณะล่วงหน้า ทำให้สามารถแยกพื้นที่วัตถุได้อย่างยืดหยุ่นและมีประสิทธิภาพทัดเทียมกับวิธีทันสมัยที่มีประสิทธิภาพสูง โดย KFOUND ได้บูรณาการ เครือข่ายโคลโมโกรอฟ–อาร์โนลด์ เพื่อปรับปรุงคุณภาพส่วนบ่งชี้ของวัตถุและตีความได้มากขึ้นตลอดจนรักษาความมีประสิทธิภาพ เมื่อพิจารณาจากชุดข้อมูล DUTS-TE, DUT-OMRON, และ ECSSD แสดงให้เห็นว่า KFOUND ให้เพิ่มคุณภาพส่วนบ่งชี้ของวัตถุโดยยังคงความเร็วในการอนุมานและใช้ทระพยากรน้อยสอดคล้องกับ FOUND โดยกรอบล้อมวัตถุเทียมที่เกิดขึ้น จะนำไปสอน ตัวตรวจจับวัตถุแบบไม่จำแนกประเภท ซึ่งพบว่าประสิทธิภาพแข่งขันได้กับวิธีทันสมัยที่มีประสิทธิภาพสูงบนชุดข้อมูล COCO20K, PASCAL VOC2007, และ VOC2012 ทั้งนี้ ข้อจำกัดหลักของไปป์ไลน์อาจเกิดกับวัตถุอำพราง หรือวัตถุที่ไม่ชัดเจน งานวิจัยในอนาคตจะมุ่งปรับปรุงความคงทนต่อลักษณะข้อมูลเหล่านั้นและการปรับแต่งกรอบล้อมวัตถุให้ดีขึ้น โดยขั้นตอนที่เสนอนี้สามารถใช้บนข้อมูลขนาดใหญ่และมีประสิทธิภาพเพื่อนำไปใช้เกี่ยวกับงานด้านคอมพิวเตอร์วิทัศน์
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Otsuka, Yuno, "An unsupervised pipeline for class-agnostic object detection using self-supervised vision transformers and kolmogorov–arnold networks" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 73999.
https://digital.car.chula.ac.th/chulaetd/73999