Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Generating images with desired properties using the discogan model enhanced with repeated property construction
Year (A.D.)
2019
Document Type
Thesis
First Advisor
บุญเสริม กิจศิริกุล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2019.1135
Abstract
แนวคิดที่ได้จากการแปลงภาพหนึ่งเป็นอีกภาพหนึ่ง นั้นมีประโยชน์ในด้านต่าง ๆ เช่น การเพิ่มความคมชัดให้ภาพ การตกแต่งภาพ การแบ่งสัดส่วนพร้อมบอกความหมายของภาพ โดยแบบจำลองที่เป็นที่นิยมในการใช้แก้ปัญหา คือ แบบจำลองแกน (generative adversarial network - GAN) เช่น แบบจำลองดิสโกแกน (DiscoGAN) และ แบบจำลองวัฏจักรของแกน (CycleGAN) โดยการฝึกแบบจำลองจะใช้ข้อมูลนำเข้าแบบไม่มีคุณสมบัติและสร้างผลลัพธ์เป็นภาพที่มีคุณสมบัติตามต้องการ หลังจากฝึกแบบจำลองจะสามารถสังเคราะห์ภาพที่มีคุณสมบัติตามต้องการ จากภาพที่ไม่มีคุณสมบัติเหล่านั้น อย่างไรก็ตามมีวิธีการฝึกแบบจำลองนั้นไม่เหมือนกับการประยุกต์ใช้จริงคือ การนำไปประยุกต์ใช้จริง ภาพที่รับเข้ามาผ่านแบบจำลองก่อกำเนิด อาจเป็นได้ทั้ง ภาพที่ยังไม่มีคุณสมบัติที่ต้องการ หรืออาจจะเป็นภาพที่มีคุณสมบัติที่ต้องการอยู่แล้ว เราจึงนำเสนอวิธีการฝึกแบบจำลองก่อเนิดให้เหมือนกับการนำไปประยุกต์ใช้จริง ด้วยวิธีการฝึกให้รับข้อมูลนำเข้าจากทั้งภาพมีคุณสมบัติที่ต้องการอยู่แล้ว และภาพที่ยังไม่มีคุณสมบัติที่ต้องการ ซึ่งแบบจำลองที่นำเสนอเป็นการนำแบบจำลองดิสโกแกนมาเสริมด้วยการสร้างคุณสมบัติซ้ำ และ แบบจำลองยังสามารถฝึกกับข้อมูลแบบไร้การจับคู่ได้ ซึ่งข้อมูลไร้การจับคู่จะเตรียมง่ายและมีความครอบคลุมของข้อมูลมากกว่าข้อมูลแบบจับคู่ ซึ่งแบบจำลองที่นำเสนอนั้นให้ผลของค่าเอฟไอดี (Fréchet Inception Distance - FID) ที่ดีกว่าแบบจำลองดิสโกแกน 59.4% สำหรับข้อมูล edges2handbags และ 14.9% สำหรับข้อมูล celebA อย่างเฉลี่ยจากการแปลงหลาย ๆ คุณสมบัติ
Other Abstract (Other language abstract of ETD)
The idea of image-to-image translation is to take advantage in certain areas such as adding the sharpness to images and improving the semantic segmentation. The most popular models for solving problems are generative adversarial network (GAN) models such as DiscoGAN and CycleGAN In training process, input images with no desired properties, and output images with the desired properties are fed into the generative model to train the model. After training, the model can synthesize the desired properties from the input images without those properties. However, in practical usage, an input image may be different from the training process because the input image may be the image with or without the desired properties. This research proposes the method of training the generative model by giving input images with and without desired properties in the same way as when the model is used. Our proposed model enhances DiscoGAN with repeated property construction to generate images with desired properties. The model can use unpaired data as the training data, which makes data preparation more efficiently and more comprehensive than paired data. The proposed model obtained approximately 59.4% for edges2handbags dataset and 14.9% for celebA dataset are better Fréchet Inception Distance (FID) by average score compared to the DiscoGAN model.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
อังศรวณีย์, ธนัทวิทย์, "การสร้างภาพมีคุณสมบัติตามต้องการโดยแบบจำลองดิสโกแกนเสริมด้วยการสร้างคุณสมบัติซ้ำ" (2019). Chulalongkorn University Theses and Dissertations (Chula ETD). 9511.
https://digital.car.chula.ac.th/chulaetd/9511