Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การแบ่งส่วนวัตถุทั่วทัศนียภาพอย่างรวดเร็วบนภาพถนนในเมือง

Year (A.D.)

2023

Document Type

Thesis

First Advisor

Peerapon Vateekul

Second Advisor

Kultida Rojviboonchai

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

Master of Engineering

Degree Level

Master's Degree

Degree Discipline

Computer Engineering

DOI

10.58837/CHULA.THE.2023.874

Abstract

Panoptic segmentation, which unifies semantic and instance segmentation, offers a comprehensive understanding of images for a variety of applications. Real-time performance with high accuracy is challenging. Recent panoptic segmentation models operate in real-time, but they often suffer from low accuracy in comparison to existing benchmarks. The objective of this thesis is to improve the performance of the "You Only Segment Once" (YOSO) model, which is the fastest panoptic segmentation model. Our model, C-YOSO, combines YOSO and a contrastive loss concept. In order to enhance the inference speed, the query decoder is simplified by incorporating a lightweight image-based query decoder that implements 1x1 convolutions and global average pooling (GAP). The experiment compares C-YOSO (ours) and YOSO on the Cityscapes dataset. In terms of panoptic quality (PQ), the results indicate that the accuracy has increased from 59.7 to 61.8, while the speed has remained consistent at 11.1 to 11.0 frames per second (FPS). Additionally, we observe an increase in accuracy across almost all classes. In order to convert it into a real-time system, we reduce the input capacity by 50%, resulting in a 22.3 FPS and 54.1 PQ.

Other Abstract (Other language abstract of ETD)

การแบ่งส่วนวัตถุทั่วทัศนียภาพซึ่งเป็นการรวมกันของการแบ่งส่วนเชิงความหมายและการแบ่งส่วนเชิงอุบัติการณ์เข้าด้วยกันการทำการแบ่งส่วนแบบนี้ทำให้สามารถทำความเข้าใจภาพทั้งได้ครอบคลุมโดยสามารถเอาไปประยุกต์ใช้สำหรับการใช้งานที่หลากหลายในการดำเนินการแบบเรียลไทม์ที่มีความแม่นยำสูงนั้นเป็นสิ่งที่ท้าทายโมเดลการแบ่งส่วนวัตถุทั่วทัศนียภาพที่สามารถทำงานแบบเรียลไทม์มักจะมีความแม่นยำต่ำเมื่อเปรียบเทียบกับโมเดลมาตรฐานที่มีอยู่วัตถุประสงค์ของบทความนี้คือการเพิ่มความแม่นยำของโมเดล "You Only Segment Once" (YOSO) ซึ่งเป็นโมเดลการแบ่งส่วนวัตถุทั่วทัศนียภาพที่เร็วที่สุด ณ ปัจจุบัน โมเดลของเราที่ชื่อว่า C-YOSO เป็นการผสมผสานกันระหว่าง YOSO กับเทคนิค Contrastive loss เพื่อเพิ่มประสิทธิภาพของโมเดล และอีกวิธีเพื่อเพิ่มความเร็วในการใช้งาน โดยการลดความซับซ้อนของตัว Query decoder ให้้เบาขึ้นโดยการใช้การคอนโวลูชั่นแบบ 1x1 และการรวมค่าเฉลี่ยทั้งหมด เราได้มีการทดลองเปรียบเทียบ C-YOSO (ของเรา) และ YOSO ในชุดข้อมูล Cityscapes ผลลัพธ์ในแง่ของคุณภาพผลลัพธ์ของวัตถุทั่วทัศนียภาพ (PQ) แสดงให้เห็นว่าความแม่นยำเพิ่มขึ้นจาก 59.7 เป็น 61.8 ในขณะที่ความเร็วแทบจะคงที่จาก 11.1 เป็น 11.0 เฟรมต่อวินาที (FPS) นอกจากนี้เมื่อวิเคราะห์อย่างละเอียดแบบแยกประเภท เรายังสังเกตเห็นว่าความแม่นยำได้เพิ่มขึ้นในเกือบทุกประเภทของวัตถุอีกทั้งเพื่อให้โมเดลสามารถใช้งานบนระบบทำงานแบบเรียลไทม์ เราได้ลดขนาดภาพของภาพที่ใช้ลงไปครึ่งจากเดิม ส่งผลให้โมเดลทำงานได้ 22.3 FPS ในขณะที่ยังมีความแม่นยำอยู่ที่ 54.1 PQ

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.