Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
GENERATING THAI SENTIMENT LEXICON FROM ONLINE REVIEWS
Year (A.D.)
2017
Document Type
Thesis
First Advisor
วิโรจน์ อรุณมานะกุล
Faculty/College
Faculty of Arts (คณะอักษรศาสตร์)
Department (if any)
Department of Linguistics (ภาควิชาภาษาศาสตร์)
Degree Name
อักษรศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
ภาษาศาสตร์
DOI
10.58837/CHULA.THE.2017.1166
Abstract
งานวิจัยนี้มีจุดมุ่งหมายเพื่อสร้างคลังศัพท์บอกความรู้สึกจากบทวิจารณ์สินค้าและบริการออนไลน์ในภาษาไทยโดยใช้วิธีการประมวลภาษาธรรมชาติตามแนวทางการวิจัยด้านภาษาศาสตร์คอมพิวเตอร์ บทวิจารณ์ที่เลือกใช้มาจาก 3 แหล่งข้อมูล ได้แก่ บทวิจารณ์โรงแรมของ Agoda บทวิจารณ์ภาพยนตร์ของ MajorCineplex และบทวิจารณ์แอปพลิเคชันโทรศัพท์มือถือของ Microsoft ซึ่งมีการให้คะแนนร่วมกับการเขียนเนื้อหาบทวิจารณ์ การวิเคราะห์หาคำบอกความรู้สึกจากเนื้อหาบทวิจารณ์อาศัยสมมติฐานว่าคำบอกความรู้สึกจะเกิดร่วมกับคำบอกลักษณะสินค้าซึ่งเป็นคำในกลุ่มคำนามที่มีความถี่การปรากฏสูง การระบุขั้วความรู้สึกบวกลบของคำบอกความรู้สึกจะดูจากค่า tf-idf เชิงบวกและเชิงลบซึ่งคำนวณจากความถี่การปรากฏในกลุ่มข้อมูลบทวิจารณ์ที่มีการให้คะแนนเชิงบวกและเชิงลบตามลำดับ กระบวนการรวบรวมคำบอกความรู้สึกในงานวิจัยนี้ทดลองใช้วิธีการต่างๆ ในสามขั้นตอน คือ การกำหนดชนิดคำบอกความรู้สึก การกำหนดค่าขั้นต่ำของลำดับความถี่ของคำบอกลักษณะสินค้า และการกำหนดค่า tf-idf ขั้นต่ำในการคัดเลือกคำบอกความรู้สึกขั้วบวกและขั้วลบ ผลที่ได้คือชุดคำบอกความรู้สึกที่แตกต่างกัน 112 ชุดจากแต่ละโดเมน จากนั้นชุดคำทั้งหมดจะนำไปทดสอบผลการวิเคราะห์ความรู้สึกเพื่อคัดเลือกชุดคำที่ดีที่สุดสำหรับการสร้างคลังศัพท์ ชุดคำบอกความรู้สึกที่ให้ผลการวิเคราะห์ดีที่สุดมาจากการใช้คำในกลุ่มคำกริยา คำคุณศัพท์ และคำวิเศษณ์เป็นคำบอกความรู้สึก เลือกใช้คำบอกลักษณะที่มีลำดับเปอร์เซ็นต์ไทล์ของความถี่ตั้งแต่ 90 ขึ้นไป และคัดเลือกคำบอกความรู้สึกที่มีผลรวมของค่า tf-idf เชิงบวกและลบมากกว่าหรือเท่ากับ 0 หลังจากนั้นคำบอกความรู้สึกในคลังศัพท์ที่ได้จากแต่ละโดเมนจะนำมาจำแนกประเภทเป็นคำบอกความรู้สึกแบบเจาะจงโดเมนและแบบไม่เจาะจงโดเมน รายการคำที่ได้จะนำมาวิเคราะห์โดยเปรียบเทียบการปรากฏในเนื้อหาบทวิจารณ์โดเมนต่างๆ เพื่อศึกษาความแตกต่างของการเลือกใช้คำบอกความรู้สึกในบทวิจารณ์สินค้าของแต่ละโดเมน ผลการวิเคราะห์พบว่าการใช้คำบอกความรู้สึกของผู้เขียนบทวิจารณ์จะเปลี่ยนไปตามความคาดหวังของผู้ใช้สินค้าหรือบริการและสไตล์การเขียนบทวิจารณ์ในโดเมนนั้นๆ นอกจากนี้การวิเคราะห์ข้อมูลบทวิจารณ์ยังแสดงให้เห็นถึงปัจจัยสำคัญต่างๆ ที่ส่งผลต่อรายการคำบอกความรู้สึกในคลังศัพท์ที่ได้จากงานวิจัยนี้ ซึ่งอาจนำไปใช้ปรับปรุงวิธีการสร้างคลังศัพท์ให้ดีขึ้นได้ ประกอบด้วย การปรากฏของคำบอกลักษณะสินค้า ช่วงคะแนนของบทวิจารณ์เชิงบวกและเชิงลบ แรงจูงใจในการเขียนบทวิจารณ์ และการเลือกใช้สินค้าหรือบริการในโดเมนต่างๆ
Other Abstract (Other language abstract of ETD)
This research aims to build up a sentiment lexicon from online product reviews in Thai. The task lies in the area of computational linguistics which involves the use of natural language processing techniques. The data is gathered from 3 domains of online product reviews written in Thai language: hotel reviews from Agoda, movie reviews from MajorCineplex, and mobile-phone application reviews from Microsoft. The data consists of review content and rating scores. Sentiment words are collected with an assumption that they normally occur together with feature words, frequent nouns which represent features of a product. The polarity of each sentiment word is determined by the tf-idf values calculated from the frequencies in positive and negative data. Three steps of data processing are experimented with various settings, i.e. percentile thresholds of noun frequency for feature word selection, combinations of part of speech for sentiment word detection, and the thresholds of the combined tf-idf value of a qualified sentiment word, resulting in 112 different sentiment lexicons for one domain. Every lexicon is then used to perform a sentiment analysis task to find out which one gives the most accurate result. By assessing the overall results across domains, the most effective lexicons are built upon the following settings: set the feature words threshold at 90th percentile rank; treat verbs, adjectives, and adverbs as sentiment words; and use any sentiment word that has the combined tf-idf of 0 and above. The next step is exploring the list of sentiment words from each domain in order to distinguish between the domain-dependent and domain-independent type. By examining the contrasting choices of sentiment words between domains, this research concludes that occurrence of a sentiment word depends on customers expectations and writing styles. Additionally, a number of important factors could pose a challenge in the construction of a sentiment lexicon as done in this research. Such factors are feature word occurrence, the range of positive and negative rating scores, the motivation behind review submissions, and customers selective behaviour.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ล้อรัตนไชยยงค์, อิสรภาพ, "การสร้างคลังศัพท์บอกความรู้สึกในภาษาไทยจากบทวิจารณ์ออนไลน์" (2017). Chulalongkorn University Theses and Dissertations (Chula ETD). 1656.
https://digital.car.chula.ac.th/chulaetd/1656