Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การเพิ่มประสิทธิภาพของการเรียนรู้แบบร่วมกันด้วยโมเดลการแพร่: การใช้ข้อมูลสังเคราะห์เพื่อแก้ปัญหาข้อมูลไม่เหมือนกันและไม่เป็นอิสระต่อกัน
Year (A.D.)
2023
Document Type
Thesis
First Advisor
Peerapon Vateekul
Second Advisor
Aik Beng Ng
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Master of Engineering
Degree Level
Master's Degree
Degree Discipline
Computer Engineering
DOI
10.58837/CHULA.THE.2023.881
Abstract
In the context of machine learning in healthcare, federated learning (FL) is frequently seen as an effective approach to tackling issues of data privacy and distribution. Nonetheless, many real-world datasets exhibit non-identical and independently distributed (non-IID) characteristics, meaning that data features vary across different institutions. This non-IID nature presents challenges for FL model convergence, such as client drifting, where model weights lean towards local optima rather than global optimum. To address these issues, we introduce a new framework called "FedDrip (Federated Learning with Diffusion Reinforcement at Pseudo-site)," which leverages diffusion-generated synthetic data to mitigate data-related problems in non-IID settings. Our pseudo-site concept is designed to use synthetic data without sharing actual data among participation institutions, thus preventing data leaks. This strategy can be integrated into any federated framework, including FedAvg and FedDyn. Our experiments on the NIH ChestX-ray14 dataset showed that FedDrip improves performance by 1.66%, 2.33%, and 0.64% for FedAvg, FedDyn, and FedProx, respectively, based on the AUC metric. Additionally, we conducted empirical studies to explore the impact of prompting style, prompt accuracy, and data scarcity on the inference of diffusion models, using the Fréchet inception distance (FID) metric for generative models.
Other Abstract (Other language abstract of ETD)
ในบริบทของการเรียนรู้ของเครื่องเพื่อการแพทย์ การเรียนรู้แบบร่วมกัน ถูกจัดว่าเป็นวิธีที่มีประสิทธิภาพในการจัดการกับปัญหาความเป็นส่วนตัวและการกระจายตัวของข้อมูล อย่างไรก็ตาม ชุดข้อมูลในโลกความเป็นจริงหลาย ๆ ชุดมีลักษณะไม่เหมือนกันและไม่เป็นอิสระต่อกัน ซึ่งหมายความว่าคุณลักษณะของข้อมูลจะแตกต่างกันไปในแต่ละสถาบันซึ่งเป็นแหล่งที่มาของข้อมูล ความไม่เป็นหนึ่งเดียวกันของข้อมูลนี้ทำให้โมเดลเรียนรู้แบบร่วมกันเกิดปัญหาในการลู่เข้า เช่น การเบี่ยงเบนเข้าหาข้อมูลแต่ละแหล่งมากเกินไป ซึ่งน้ำหนักของโมเดลจะเบี่ยงเบนไปสู่ค่าที่เหมาะสมภายในข้อมูลที่มีแต่ละแหล่ง แทนที่จะเป็นค่าที่เหมาะสมร่วมกันของทุกแหล่งข้อมูล เพื่อแก้ไขปัญหาเหล่านี้ ผู้วิจัยได้เสนองานใหม่ที่เรียกว่า "FedDrip (การเรียนรู้แบบร่วมกันผนวกการเสริมกำลังด้วยโมเดลการแพร่ที่ไซต์เทียม)" ซึ่งใช้ข้อมูลสังเคราะห์ที่สร้างจากโมเดลการแพร่เพื่อบรรเทาปัญหาที่เกี่ยวข้องกับข้อมูลในกรณีที่ข้อมูลไม่เหมือนกันและไม่เป็นอิสระต่อกัน แนวคิดของไซต์เทียมได้รับการออกแบบเพื่อใช้ข้อมูลสังเคราะห์โดยไม่ต้องแบ่งปันข้อมูลจริงระหว่างสถาบันที่เข้าร่วม เพื่อป้องกันการรั่วไหลของข้อมูล กลยุทธ์นี้สามารถบูรณาการเข้ากับระบบใด ๆ รวมถึง FedAvg และ FedDyn การทดลองของเราบนชุดข้อมูล NIH ChestX-ray14 แสดงให้เห็นว่า FedDrip สามารถเพิ่มประสิทธิภาพได้ 1.66%, 2.23%, และ 0.64% สำหรับ FedAvg, FedDyn, และ FedProx ตามลำดับ โดยใช้ AUC เป็นมาตรวัด นอกจากนี้ เราได้ทำการศึกษาเชิงประจักษ์เพื่อสำรวจผลกระทบของคำสั่งต่อคุณภาพรูป ความถูกต้องของคำสั่ง และความขาดแคลนของข้อมูลต่อการทำงานของโมเดลการแพร่ โดยใช้เมตริก Fréchet inception distance (FID) เพื่อวัดความสามารถในการสร้างรูปของโมเดล
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Huangsuwan, Karin, "Enhancing the performance of federated learning with diffusion models: leveraging synthetic data to address non-IID data challenges" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 11961.
https://digital.car.chula.ac.th/chulaetd/11961