Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A performance evaluation of active learning by greedy approach and Thompson sampling approach on text-based data

Year (A.D.)

2024

Document Type

Thesis

First Advisor

เสกสรร เกียรติสุไพบูลย์

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Department (if any)

Department of Statistics (ภาควิชาสถิติ)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2024.728

Abstract

การวิจัยนี้มุ่งเน้นการประเมินประสิทธิภาพของวิธีการเรียนรู้เชิงรุกสำหรับการคัดเลือกข้อมูลที่มีประโยชน์สูงสุดในการทำป้ายกำกับ โดยเปรียบเทียบวิธีการเลือกข้อมูลแบบสุ่ม วิธีการเลือกข้อมูลโดยวิธีละโมบ และวิธีการสุ่มตัวอย่างของทอมป์สันด้วยการประมาณค่าแบบลาพลาซ ผ่านการทดลอง 100 รอบในการเลือกทวีตเกี่ยวกับการท่องเที่ยวในกรุงเทพมหานครเพื่อฝึกโมเดลการถดถอยโลจิสติก ผลการทดลองพบว่าวิธีการเลือกข้อมูลโดยวิธีละโมบให้ประสิทธิภาพสูงสุดตลอดการทดลอง เนื่องจากสามารถปรับปรุงโมเดลได้อย่างรวดเร็ว แต่ประสิทธิภาพลดลงในช่วงท้ายเมื่อจำนวนทวีตที่มีประโยชน์ลดลง ขณะที่วิธีการสุ่มตัวอย่างของทอมป์สันด้วยการประมาณค่าแบบลาพลาซใช้เวลาในการคัดเลือกข้อมูลมากที่สุดและมีประสิทธิภาพต่ำกว่าในช่วงแรก อย่างไรก็ตาม เมื่อจำนวนรอบการทดลองเพิ่มขึ้น ความแม่นยำของโมเดลก็ค่อย ๆ ดีขึ้นเมื่อเทียบกับช่วงต้น ส่วนวิธีการเลือกข้อมูลแบบสุ่มใช้เวลาน้อยที่สุด แต่ไม่มีการเรียนรู้หรือปรับปรุงโมเดล ทำให้ประสิทธิภาพไม่ดีขึ้น จากผลการทดลองสามารถสรุปได้ว่าวิธีการเลือกข้อมูลโดยวิธีละโมบเป็นทางเลือกที่มีประสิทธิภาพสูงในสถานการณ์ที่ต้องการการเรียนรู้ที่รวดเร็ว ในขณะที่วิธีการสุ่มตัวอย่างของทอมป์สันด้วยการประมาณค่าแบบลาพลาซยังคงต้องมีการศึกษาเพิ่มเติมเกี่ยวกับศักยภาพในการเรียนรู้ในระยะยาว งานวิจัยนี้สามารถนำไปประยุกต์ใช้กับการวิเคราะห์ข้อมูลข้อความ เช่น การจำแนกประเภทความรู้สึกของผู้ใช้โซเชียลมีเดีย หรือการประเมินความคิดเห็นของลูกค้าในอุตสาหกรรมต่างๆ

Other Abstract (Other language abstract of ETD)

This research focuses on evaluating the effectiveness of active learning methods for selecting the most useful data for labeling. The study compares random sampling, greedy selection, and Thompson sampling with Laplace approximation through 100 iterations of selecting tweets related to tourism in Bangkok for training a logistic regression model. The results indicate that the greedy selection method consistently achieved the highest performance throughout the experiment, as it allowed for rapid model improvement. However, its performance declined in later stages when the number of informative tweets decreased. In contrast, Thompson sampling with Laplace approximation required the most time for data selection and demonstrated lower initial performance. Nevertheless, as the number of iterations increased, the model’s accuracy gradually improved compared to the early stages. On the other hand, the random sampling method required the least time but did not facilitate model learning or improvement, resulting in consistently low performance. Based on the findings, the greedy selection method is the most effective choice in scenarios requiring fast learning, while Thompson sampling with Laplace approximation warrants further study regarding its long-term learning potential. The findings from this research can be applied to text analysis tasks such as sentiment classification of social media users or customer opinion assessment in various industries.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.