Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การแบ่งส่วนวัตถุทั่วทัศนียภาพอย่างรวดเร็วบนภาพถนนในเมือง
Year (A.D.)
2023
Document Type
Thesis
First Advisor
Peerapon Vateekul
Second Advisor
Kultida Rojviboonchai
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Master of Engineering
Degree Level
Master's Degree
Degree Discipline
Computer Engineering
DOI
10.58837/CHULA.THE.2023.874
Abstract
Panoptic segmentation, which unifies semantic and instance segmentation, offers a comprehensive understanding of images for a variety of applications. Real-time performance with high accuracy is challenging. Recent panoptic segmentation models operate in real-time, but they often suffer from low accuracy in comparison to existing benchmarks. The objective of this thesis is to improve the performance of the "You Only Segment Once" (YOSO) model, which is the fastest panoptic segmentation model. Our model, C-YOSO, combines YOSO and a contrastive loss concept. In order to enhance the inference speed, the query decoder is simplified by incorporating a lightweight image-based query decoder that implements 1x1 convolutions and global average pooling (GAP). The experiment compares C-YOSO (ours) and YOSO on the Cityscapes dataset. In terms of panoptic quality (PQ), the results indicate that the accuracy has increased from 59.7 to 61.8, while the speed has remained consistent at 11.1 to 11.0 frames per second (FPS). Additionally, we observe an increase in accuracy across almost all classes. In order to convert it into a real-time system, we reduce the input capacity by 50%, resulting in a 22.3 FPS and 54.1 PQ.
Other Abstract (Other language abstract of ETD)
การแบ่งส่วนวัตถุทั่วทัศนียภาพซึ่งเป็นการรวมกันของการแบ่งส่วนเชิงความหมายและการแบ่งส่วนเชิงอุบัติการณ์เข้าด้วยกันการทำการแบ่งส่วนแบบนี้ทำให้สามารถทำความเข้าใจภาพทั้งได้ครอบคลุมโดยสามารถเอาไปประยุกต์ใช้สำหรับการใช้งานที่หลากหลายในการดำเนินการแบบเรียลไทม์ที่มีความแม่นยำสูงนั้นเป็นสิ่งที่ท้าทายโมเดลการแบ่งส่วนวัตถุทั่วทัศนียภาพที่สามารถทำงานแบบเรียลไทม์มักจะมีความแม่นยำต่ำเมื่อเปรียบเทียบกับโมเดลมาตรฐานที่มีอยู่วัตถุประสงค์ของบทความนี้คือการเพิ่มความแม่นยำของโมเดล "You Only Segment Once" (YOSO) ซึ่งเป็นโมเดลการแบ่งส่วนวัตถุทั่วทัศนียภาพที่เร็วที่สุด ณ ปัจจุบัน โมเดลของเราที่ชื่อว่า C-YOSO เป็นการผสมผสานกันระหว่าง YOSO กับเทคนิค Contrastive loss เพื่อเพิ่มประสิทธิภาพของโมเดล และอีกวิธีเพื่อเพิ่มความเร็วในการใช้งาน โดยการลดความซับซ้อนของตัว Query decoder ให้้เบาขึ้นโดยการใช้การคอนโวลูชั่นแบบ 1x1 และการรวมค่าเฉลี่ยทั้งหมด เราได้มีการทดลองเปรียบเทียบ C-YOSO (ของเรา) และ YOSO ในชุดข้อมูล Cityscapes ผลลัพธ์ในแง่ของคุณภาพผลลัพธ์ของวัตถุทั่วทัศนียภาพ (PQ) แสดงให้เห็นว่าความแม่นยำเพิ่มขึ้นจาก 59.7 เป็น 61.8 ในขณะที่ความเร็วแทบจะคงที่จาก 11.1 เป็น 11.0 เฟรมต่อวินาที (FPS) นอกจากนี้เมื่อวิเคราะห์อย่างละเอียดแบบแยกประเภท เรายังสังเกตเห็นว่าความแม่นยำได้เพิ่มขึ้นในเกือบทุกประเภทของวัตถุอีกทั้งเพื่อให้โมเดลสามารถใช้งานบนระบบทำงานแบบเรียลไทม์ เราได้ลดขนาดภาพของภาพที่ใช้ลงไปครึ่งจากเดิม ส่งผลให้โมเดลทำงานได้ 22.3 FPS ในขณะที่ยังมีความแม่นยำอยู่ที่ 54.1 PQ
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Plabplathong, Chananvich, "Fast panoptic segmentation on urban street scenes" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 11970.
https://digital.car.chula.ac.th/chulaetd/11970