Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การเพิ่มประสิทธิภาพของการเรียนรู้แบบร่วมกันด้วยโมเดลการแพร่: การใช้ข้อมูลสังเคราะห์เพื่อแก้ปัญหาข้อมูลไม่เหมือนกันและไม่เป็นอิสระต่อกัน

Year (A.D.)

2023

Document Type

Thesis

First Advisor

Peerapon Vateekul

Second Advisor

Aik Beng Ng

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

Master of Engineering

Degree Level

Master's Degree

Degree Discipline

Computer Engineering

DOI

10.58837/CHULA.THE.2023.881

Abstract

In the context of machine learning in healthcare, federated learning (FL) is frequently seen as an effective approach to tackling issues of data privacy and distribution. Nonetheless, many real-world datasets exhibit non-identical and independently distributed (non-IID) characteristics, meaning that data features vary across different institutions. This non-IID nature presents challenges for FL model convergence, such as client drifting, where model weights lean towards local optima rather than global optimum. To address these issues, we introduce a new framework called "FedDrip (Federated Learning with Diffusion Reinforcement at Pseudo-site)," which leverages diffusion-generated synthetic data to mitigate data-related problems in non-IID settings. Our pseudo-site concept is designed to use synthetic data without sharing actual data among participation institutions, thus preventing data leaks. This strategy can be integrated into any federated framework, including FedAvg and FedDyn. Our experiments on the NIH ChestX-ray14 dataset showed that FedDrip improves performance by 1.66%, 2.33%, and 0.64% for FedAvg, FedDyn, and FedProx, respectively, based on the AUC metric. Additionally, we conducted empirical studies to explore the impact of prompting style, prompt accuracy, and data scarcity on the inference of diffusion models, using the Fréchet inception distance (FID) metric for generative models.

Other Abstract (Other language abstract of ETD)

ในบริบทของการเรียนรู้ของเครื่องเพื่อการแพทย์ การเรียนรู้แบบร่วมกัน ถูกจัดว่าเป็นวิธีที่มีประสิทธิภาพในการจัดการกับปัญหาความเป็นส่วนตัวและการกระจายตัวของข้อมูล อย่างไรก็ตาม ชุดข้อมูลในโลกความเป็นจริงหลาย ๆ ชุดมีลักษณะไม่เหมือนกันและไม่เป็นอิสระต่อกัน ซึ่งหมายความว่าคุณลักษณะของข้อมูลจะแตกต่างกันไปในแต่ละสถาบันซึ่งเป็นแหล่งที่มาของข้อมูล ความไม่เป็นหนึ่งเดียวกันของข้อมูลนี้ทำให้โมเดลเรียนรู้แบบร่วมกันเกิดปัญหาในการลู่เข้า เช่น การเบี่ยงเบนเข้าหาข้อมูลแต่ละแหล่งมากเกินไป ซึ่งน้ำหนักของโมเดลจะเบี่ยงเบนไปสู่ค่าที่เหมาะสมภายในข้อมูลที่มีแต่ละแหล่ง แทนที่จะเป็นค่าที่เหมาะสมร่วมกันของทุกแหล่งข้อมูล เพื่อแก้ไขปัญหาเหล่านี้ ผู้วิจัยได้เสนองานใหม่ที่เรียกว่า "FedDrip (การเรียนรู้แบบร่วมกันผนวกการเสริมกำลังด้วยโมเดลการแพร่ที่ไซต์เทียม)" ซึ่งใช้ข้อมูลสังเคราะห์ที่สร้างจากโมเดลการแพร่เพื่อบรรเทาปัญหาที่เกี่ยวข้องกับข้อมูลในกรณีที่ข้อมูลไม่เหมือนกันและไม่เป็นอิสระต่อกัน แนวคิดของไซต์เทียมได้รับการออกแบบเพื่อใช้ข้อมูลสังเคราะห์โดยไม่ต้องแบ่งปันข้อมูลจริงระหว่างสถาบันที่เข้าร่วม เพื่อป้องกันการรั่วไหลของข้อมูล กลยุทธ์นี้สามารถบูรณาการเข้ากับระบบใด ๆ รวมถึง FedAvg และ FedDyn การทดลองของเราบนชุดข้อมูล NIH ChestX-ray14 แสดงให้เห็นว่า FedDrip สามารถเพิ่มประสิทธิภาพได้ 1.66%, 2.23%, และ 0.64% สำหรับ FedAvg, FedDyn, และ FedProx ตามลำดับ โดยใช้ AUC เป็นมาตรวัด นอกจากนี้ เราได้ทำการศึกษาเชิงประจักษ์เพื่อสำรวจผลกระทบของคำสั่งต่อคุณภาพรูป ความถูกต้องของคำสั่ง และความขาดแคลนของข้อมูลต่อการทำงานของโมเดลการแพร่ โดยใช้เมตริก Fréchet inception distance (FID) เพื่อวัดความสามารถในการสร้างรูปของโมเดล

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.