Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
A performance evaluation of active learning by greedy approach and Thompson sampling approach on text-based data
Year (A.D.)
2024
Document Type
Thesis
First Advisor
เสกสรร เกียรติสุไพบูลย์
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติ
DOI
10.58837/CHULA.THE.2024.728
Abstract
การวิจัยนี้มุ่งเน้นการประเมินประสิทธิภาพของวิธีการเรียนรู้เชิงรุกสำหรับการคัดเลือกข้อมูลที่มีประโยชน์สูงสุดในการทำป้ายกำกับ โดยเปรียบเทียบวิธีการเลือกข้อมูลแบบสุ่ม วิธีการเลือกข้อมูลโดยวิธีละโมบ และวิธีการสุ่มตัวอย่างของทอมป์สันด้วยการประมาณค่าแบบลาพลาซ ผ่านการทดลอง 100 รอบในการเลือกทวีตเกี่ยวกับการท่องเที่ยวในกรุงเทพมหานครเพื่อฝึกโมเดลการถดถอยโลจิสติก ผลการทดลองพบว่าวิธีการเลือกข้อมูลโดยวิธีละโมบให้ประสิทธิภาพสูงสุดตลอดการทดลอง เนื่องจากสามารถปรับปรุงโมเดลได้อย่างรวดเร็ว แต่ประสิทธิภาพลดลงในช่วงท้ายเมื่อจำนวนทวีตที่มีประโยชน์ลดลง ขณะที่วิธีการสุ่มตัวอย่างของทอมป์สันด้วยการประมาณค่าแบบลาพลาซใช้เวลาในการคัดเลือกข้อมูลมากที่สุดและมีประสิทธิภาพต่ำกว่าในช่วงแรก อย่างไรก็ตาม เมื่อจำนวนรอบการทดลองเพิ่มขึ้น ความแม่นยำของโมเดลก็ค่อย ๆ ดีขึ้นเมื่อเทียบกับช่วงต้น ส่วนวิธีการเลือกข้อมูลแบบสุ่มใช้เวลาน้อยที่สุด แต่ไม่มีการเรียนรู้หรือปรับปรุงโมเดล ทำให้ประสิทธิภาพไม่ดีขึ้น จากผลการทดลองสามารถสรุปได้ว่าวิธีการเลือกข้อมูลโดยวิธีละโมบเป็นทางเลือกที่มีประสิทธิภาพสูงในสถานการณ์ที่ต้องการการเรียนรู้ที่รวดเร็ว ในขณะที่วิธีการสุ่มตัวอย่างของทอมป์สันด้วยการประมาณค่าแบบลาพลาซยังคงต้องมีการศึกษาเพิ่มเติมเกี่ยวกับศักยภาพในการเรียนรู้ในระยะยาว งานวิจัยนี้สามารถนำไปประยุกต์ใช้กับการวิเคราะห์ข้อมูลข้อความ เช่น การจำแนกประเภทความรู้สึกของผู้ใช้โซเชียลมีเดีย หรือการประเมินความคิดเห็นของลูกค้าในอุตสาหกรรมต่างๆ
Other Abstract (Other language abstract of ETD)
This research focuses on evaluating the effectiveness of active learning methods for selecting the most useful data for labeling. The study compares random sampling, greedy selection, and Thompson sampling with Laplace approximation through 100 iterations of selecting tweets related to tourism in Bangkok for training a logistic regression model. The results indicate that the greedy selection method consistently achieved the highest performance throughout the experiment, as it allowed for rapid model improvement. However, its performance declined in later stages when the number of informative tweets decreased. In contrast, Thompson sampling with Laplace approximation required the most time for data selection and demonstrated lower initial performance. Nevertheless, as the number of iterations increased, the model’s accuracy gradually improved compared to the early stages. On the other hand, the random sampling method required the least time but did not facilitate model learning or improvement, resulting in consistently low performance. Based on the findings, the greedy selection method is the most effective choice in scenarios requiring fast learning, while Thompson sampling with Laplace approximation warrants further study regarding its long-term learning potential. The findings from this research can be applied to text analysis tasks such as sentiment classification of social media users or customer opinion assessment in various industries.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
พรหมจรรย์, อานนท์, "การประเมินประสิทธิภาพของการเรียนรู้เชิงรุกโดยวิธีการเลือกแบบละโมบและวิธีการสุ่มตัวอย่างของทอมป์สันกับข้อมูลรูปแบบข้อความ" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 74566.
https://digital.car.chula.ac.th/chulaetd/74566