Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

GENERATING THAI SENTIMENT LEXICON FROM ONLINE REVIEWS

Year (A.D.)

2017

Document Type

Thesis

First Advisor

วิโรจน์ อรุณมานะกุล

Faculty/College

Faculty of Arts (คณะอักษรศาสตร์)

Department (if any)

Department of Linguistics (ภาควิชาภาษาศาสตร์)

Degree Name

อักษรศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

ภาษาศาสตร์

DOI

10.58837/CHULA.THE.2017.1166

Abstract

งานวิจัยนี้มีจุดมุ่งหมายเพื่อสร้างคลังศัพท์บอกความรู้สึกจากบทวิจารณ์สินค้าและบริการออนไลน์ในภาษาไทยโดยใช้วิธีการประมวลภาษาธรรมชาติตามแนวทางการวิจัยด้านภาษาศาสตร์คอมพิวเตอร์ บทวิจารณ์ที่เลือกใช้มาจาก 3 แหล่งข้อมูล ได้แก่ บทวิจารณ์โรงแรมของ Agoda บทวิจารณ์ภาพยนตร์ของ MajorCineplex และบทวิจารณ์แอปพลิเคชันโทรศัพท์มือถือของ Microsoft ซึ่งมีการให้คะแนนร่วมกับการเขียนเนื้อหาบทวิจารณ์ การวิเคราะห์หาคำบอกความรู้สึกจากเนื้อหาบทวิจารณ์อาศัยสมมติฐานว่าคำบอกความรู้สึกจะเกิดร่วมกับคำบอกลักษณะสินค้าซึ่งเป็นคำในกลุ่มคำนามที่มีความถี่การปรากฏสูง การระบุขั้วความรู้สึกบวกลบของคำบอกความรู้สึกจะดูจากค่า tf-idf เชิงบวกและเชิงลบซึ่งคำนวณจากความถี่การปรากฏในกลุ่มข้อมูลบทวิจารณ์ที่มีการให้คะแนนเชิงบวกและเชิงลบตามลำดับ กระบวนการรวบรวมคำบอกความรู้สึกในงานวิจัยนี้ทดลองใช้วิธีการต่างๆ ในสามขั้นตอน คือ การกำหนดชนิดคำบอกความรู้สึก การกำหนดค่าขั้นต่ำของลำดับความถี่ของคำบอกลักษณะสินค้า และการกำหนดค่า tf-idf ขั้นต่ำในการคัดเลือกคำบอกความรู้สึกขั้วบวกและขั้วลบ ผลที่ได้คือชุดคำบอกความรู้สึกที่แตกต่างกัน 112 ชุดจากแต่ละโดเมน จากนั้นชุดคำทั้งหมดจะนำไปทดสอบผลการวิเคราะห์ความรู้สึกเพื่อคัดเลือกชุดคำที่ดีที่สุดสำหรับการสร้างคลังศัพท์ ชุดคำบอกความรู้สึกที่ให้ผลการวิเคราะห์ดีที่สุดมาจากการใช้คำในกลุ่มคำกริยา คำคุณศัพท์ และคำวิเศษณ์เป็นคำบอกความรู้สึก เลือกใช้คำบอกลักษณะที่มีลำดับเปอร์เซ็นต์ไทล์ของความถี่ตั้งแต่ 90 ขึ้นไป และคัดเลือกคำบอกความรู้สึกที่มีผลรวมของค่า tf-idf เชิงบวกและลบมากกว่าหรือเท่ากับ 0 หลังจากนั้นคำบอกความรู้สึกในคลังศัพท์ที่ได้จากแต่ละโดเมนจะนำมาจำแนกประเภทเป็นคำบอกความรู้สึกแบบเจาะจงโดเมนและแบบไม่เจาะจงโดเมน รายการคำที่ได้จะนำมาวิเคราะห์โดยเปรียบเทียบการปรากฏในเนื้อหาบทวิจารณ์โดเมนต่างๆ เพื่อศึกษาความแตกต่างของการเลือกใช้คำบอกความรู้สึกในบทวิจารณ์สินค้าของแต่ละโดเมน ผลการวิเคราะห์พบว่าการใช้คำบอกความรู้สึกของผู้เขียนบทวิจารณ์จะเปลี่ยนไปตามความคาดหวังของผู้ใช้สินค้าหรือบริการและสไตล์การเขียนบทวิจารณ์ในโดเมนนั้นๆ นอกจากนี้การวิเคราะห์ข้อมูลบทวิจารณ์ยังแสดงให้เห็นถึงปัจจัยสำคัญต่างๆ ที่ส่งผลต่อรายการคำบอกความรู้สึกในคลังศัพท์ที่ได้จากงานวิจัยนี้ ซึ่งอาจนำไปใช้ปรับปรุงวิธีการสร้างคลังศัพท์ให้ดีขึ้นได้ ประกอบด้วย การปรากฏของคำบอกลักษณะสินค้า ช่วงคะแนนของบทวิจารณ์เชิงบวกและเชิงลบ แรงจูงใจในการเขียนบทวิจารณ์ และการเลือกใช้สินค้าหรือบริการในโดเมนต่างๆ

Other Abstract (Other language abstract of ETD)

This research aims to build up a sentiment lexicon from online product reviews in Thai. The task lies in the area of computational linguistics which involves the use of natural language processing techniques. The data is gathered from 3 domains of online product reviews written in Thai language: hotel reviews from Agoda, movie reviews from MajorCineplex, and mobile-phone application reviews from Microsoft. The data consists of review content and rating scores. Sentiment words are collected with an assumption that they normally occur together with feature words, frequent nouns which represent features of a product. The polarity of each sentiment word is determined by the tf-idf values calculated from the frequencies in positive and negative data. Three steps of data processing are experimented with various settings, i.e. percentile thresholds of noun frequency for feature word selection, combinations of part of speech for sentiment word detection, and the thresholds of the combined tf-idf value of a qualified sentiment word, resulting in 112 different sentiment lexicons for one domain. Every lexicon is then used to perform a sentiment analysis task to find out which one gives the most accurate result. By assessing the overall results across domains, the most effective lexicons are built upon the following settings: set the feature word’s threshold at 90th percentile rank; treat verbs, adjectives, and adverbs as sentiment words; and use any sentiment word that has the combined tf-idf of 0 and above. The next step is exploring the list of sentiment words from each domain in order to distinguish between the domain-dependent and domain-independent type. By examining the contrasting choices of sentiment words between domains, this research concludes that occurrence of a sentiment word depends on customers’ expectations and writing styles. Additionally, a number of important factors could pose a challenge in the construction of a sentiment lexicon as done in this research. Such factors are feature word occurrence, the range of positive and negative rating scores, the motivation behind review submissions, and customers’ selective behaviour.

Included in

Linguistics Commons

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.