Chulalongkorn University Theses and Dissertations (Chula ETD)

การจำแนกประเภทข้อความในภาษาไทยโดยใช้นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษร

Other Title (Parallel Title in Other Language of ETD)

Text Categorization for Thai Corpus using Character-Level Convolutional Neural Network

Year (A.D.)

2016

Document Type

Thesis

First Advisor

พีรพล เวทีกูล

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2016.824

Abstract

นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรเป็นวิธีการจำแนกประเภทข้อความที่มีประสิทธิภาพ วิธีการนี้ใช้การเรียนรู้ข้อความจากระดับตัวอักษร เมื่อนำมาใช้กับการจำแนกประเภทข้อความในภาษาไทยแล้ว จะทำให้สามารถจำแนกข้อความได้โดยไม่ต้องใช้ขั้นตอนการตัดคำ ทั้งนี้ นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรดั้งเดิมนั้นมีการจำกัดข้อความอยู่ที่ 1,014 ตัวอักษร ตัวอักษรส่วนเกินในข้อความตั้งต้นจะถูกตัดออกและไม่ถูกนำไปใช้ ในวิทยานิพนธ์ฉบับนี้จึงได้ทำการปรับปรุงโครงสร้างของนิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรให้สามารถรองรับข้อมูลความยาวใด ๆ โดยที่ยังคงใช้จำนวนพารามิเตอร์อื่น ๆ คงเดิม ผลการทดลองกับข้อมูลข่าวภาษาไทยแสดงให้เห็นว่า วิธีการที่เสนอไปนั้นสามารถเพิ่มความแม่นยำให้กับการจำแนกได้เมื่อเปรียบเทียบกับวิธีการดั้งเดิม นอกจากนี้ นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรที่เสนอนั้นยังให้ความแม่นยำในการจำแนกที่สูงกว่าวิธีการที่ได้รับความนิยมอื่น ๆ เช่น นาอีฟเบย์ แมกซิมัมเอนโทรปี และซัพพอร์ตเวกเตอร์แมชชีน โดยมีเพียงวิธีนิวรอลเน็ตเวิร์กคอนโวลูชันระดับคำเท่านั้น ที่ให้ความแม่นยำมากกว่าประมาณ 0.5% ทั้งนี้ การใช้นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรมีข้อดีคือประสิทธิภาพของของการจำแนกจะไม่ขึ้นอยู่กับประสิทธิภาพของการตัดคำ

Other Abstract (Other language abstract of ETD)

A Character-level Convolutional Neural Network (Char-CNN) is an efficient method for text categorization. This method uses an input from characters, therefore, when applying it to categorize Thai text, a word segmentation step is not required. However, an original model of Char-CNN limits an input length to 1,014 characters. Any exceeding character is ignored. This thesis presents an improvement of Char-CNN which can accept any input length while it still uses the same number of parameters. Experiments show that our proposed model can produce a better accuracy than an original model. Moreover, the proposed technique outperforms many classical techniques e.g. Naïve Bayes, Maximum Entropy and Support Vector Machine. Note that there is only one technique, a word-level Convolutional Neural Network, that it performs better than our model about 0.5%. However, a Char-CNN has an advantage because its accuracy does not depend on a performance of word segmentation.

Share

COinS