Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

วิธีการเรียนรู้แบบมีผู้สอนเล็กน้อยสำหรับการจัดหมู่ข้อความแบบคลาสเดียว

Year (A.D.)

2018

Document Type

Thesis

First Advisor

Dittaya Wanvarie

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Degree Name

Master of Science

Degree Level

Master's Degree

Degree Discipline

Computer Science

DOI

10.58837/CHULA.THE.2018.162

Abstract

This thesis introduces a lightly-supervised learning method to train text classifiers with very little manual labelling effort. We adapt two previous state-of-theart lightly-supervised models, generalized expectation (GE) criteria (Druck et al. (2008)) and multinomial naïve Bayes (MNB) with priors (Settles (2011)) to oneclass classification problem. Users just need to label a handful of keywords for the target category. We also combine the two aforementioned models by letting MNB automatically augment the list of GE constraints. In addition, we ensemble two families of classifiers to improve the accuracy further. We successfully applied our model to a real-world problem of online advertising. On a corpus of online advertising data, the proposed model achieved the top macro average F₁ of 0.69 and closed 50% gap between previous state-of-the-art lightly-supervised models and a fully-supervised model MaxEnt model.

Other Abstract (Other language abstract of ETD)

วิทยานิพนธ์นี้นำเสนอวิธีการเรียนรู้แบบมีผู้สอนเล็กน้อยเพื่อสร้างตัวจำแนกข้อความ โดยอาศัยการกำกับคลาสเพียงเล็กน้อย เราปรับใช้ตัวแบบการเรียนรู้แบบมีผู้สอนเล็กน้อย ล่าสุดสองตัวแบบ ได้แก่เกณฑ์การคาดหวังทั่วไป (generalized expectation criteria: GE criteria) (Druck et al. (2008)) และตัวจำแนกอเนกนามแบบเบส์อย่างง่าย (Multinomial Naive Bayes: MNB) โดยมีความรู้ก่อน (Settles (2011)) กับปัญหาการจำแนกคลาส เดียว ผู้ใช้เพียงต้องป้อนคำสำคัญของคลาสที่ต้องการเท่านั้น เราใช้วิธีทั้งสองที่กล่าวมาโดยให้ MNB ช่วยเพิ่มเติมรายการเงื่อนไขของ GE นอกจากนี้เรายังรวมผลลัพธ์ของตัวจำแนกทั้ง สองเพื่อเพิ่มความแม่นยำอีกด้วย เราใช้ตัวแบบที่นำเสนอกับการโฆษณาออนไลน์ซึ่งเป็นปัญหาในโลกจริง ตัวแบบที่นำ เสนอเมื่อใช้กับคลังข้อความโฆษณาออนไลน์มี F₁ เฉลี่ยรวม 0.69 ซึ่งเพิ่มขึ้น 50% จากความ แตกต่างของตัวแบบเดิมที่มีผู้สอนเพียงเล็กน้อยกับตัวจำแนกแบบเอนโทรปีสูงสุด (MaxEnt) ซึ่งใช้ผู้สอนกำกับข้อความทั้งหมด

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.