Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Generating images with desired properties using the discogan model enhanced with repeated property construction

Year (A.D.)

2019

Document Type

Thesis

First Advisor

บุญเสริม กิจศิริกุล

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2019.1135

Abstract

แนวคิดที่ได้จากการแปลงภาพหนึ่งเป็นอีกภาพหนึ่ง นั้นมีประโยชน์ในด้านต่าง ๆ เช่น การเพิ่มความคมชัดให้ภาพ การตกแต่งภาพ การแบ่งสัดส่วนพร้อมบอกความหมายของภาพ โดยแบบจำลองที่เป็นที่นิยมในการใช้แก้ปัญหา คือ แบบจำลองแกน (generative adversarial network - GAN) เช่น แบบจำลองดิสโกแกน (DiscoGAN) และ แบบจำลองวัฏจักรของแกน (CycleGAN) โดยการฝึกแบบจำลองจะใช้ข้อมูลนำเข้าแบบไม่มีคุณสมบัติและสร้างผลลัพธ์เป็นภาพที่มีคุณสมบัติตามต้องการ หลังจากฝึกแบบจำลองจะสามารถสังเคราะห์ภาพที่มีคุณสมบัติตามต้องการ จากภาพที่ไม่มีคุณสมบัติเหล่านั้น อย่างไรก็ตามมีวิธีการฝึกแบบจำลองนั้นไม่เหมือนกับการประยุกต์ใช้จริงคือ การนำไปประยุกต์ใช้จริง ภาพที่รับเข้ามาผ่านแบบจำลองก่อกำเนิด อาจเป็นได้ทั้ง ภาพที่ยังไม่มีคุณสมบัติที่ต้องการ หรืออาจจะเป็นภาพที่มีคุณสมบัติที่ต้องการอยู่แล้ว เราจึงนำเสนอวิธีการฝึกแบบจำลองก่อเนิดให้เหมือนกับการนำไปประยุกต์ใช้จริง ด้วยวิธีการฝึกให้รับข้อมูลนำเข้าจากทั้งภาพมีคุณสมบัติที่ต้องการอยู่แล้ว และภาพที่ยังไม่มีคุณสมบัติที่ต้องการ ซึ่งแบบจำลองที่นำเสนอเป็นการนำแบบจำลองดิสโกแกนมาเสริมด้วยการสร้างคุณสมบัติซ้ำ และ แบบจำลองยังสามารถฝึกกับข้อมูลแบบไร้การจับคู่ได้ ซึ่งข้อมูลไร้การจับคู่จะเตรียมง่ายและมีความครอบคลุมของข้อมูลมากกว่าข้อมูลแบบจับคู่ ซึ่งแบบจำลองที่นำเสนอนั้นให้ผลของค่าเอฟไอดี (Fréchet Inception Distance - FID) ที่ดีกว่าแบบจำลองดิสโกแกน 59.4% สำหรับข้อมูล edges2handbags และ 14.9% สำหรับข้อมูล celebA อย่างเฉลี่ยจากการแปลงหลาย ๆ คุณสมบัติ

Other Abstract (Other language abstract of ETD)

The idea of image-to-image translation is to take advantage in certain areas such as adding the sharpness to images and improving the semantic segmentation. The most popular models for solving problems are generative adversarial network (GAN) models such as DiscoGAN and CycleGAN In training process, input images with no desired properties, and output images with the desired properties are fed into the generative model to train the model. After training, the model can synthesize the desired properties from the input images without those properties. However, in practical usage, an input image may be different from the training process because the input image may be the image with or without the desired properties. This research proposes the method of training the generative model by giving input images with and without desired properties in the same way as when the model is used. Our proposed model enhances DiscoGAN with repeated property construction to generate images with desired properties. The model can use unpaired data as the training data, which makes data preparation more efficiently and more comprehensive than paired data. The proposed model obtained approximately 59.4% for edges2handbags dataset and 14.9% for celebA dataset are better Fréchet Inception Distance (FID) by average score compared to the DiscoGAN model.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.