Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Automatic Topic Detection on Twitter Data Using Stock Indicator Based Features
Year (A.D.)
2018
Document Type
Thesis
First Advisor
พีรพล เวทีกูล
Second Advisor
อภิวดี ปิยธรรมรงค์
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมคอมพิวเตอร์
DOI
10.58837/CHULA.THE.2018.1249
Abstract
สื่อสังคมออนไลน์เป็นหนึ่งในการสื่อสารที่สำคัญและรวดเร็วที่สุดในปัจจุบัน การ สังเกตการณ์ข้อมูลทวิตเตอร์ทำให้สามารถตรวจจับเหตุการณ์ที่กำลังเป็นที่สนใจแบบใกล้ทันกาล หรือหัวข้อเกิดใหม่ได้ โดยหัวข้อเกิดใหม่แต่ละหัวข้อจะประกอบด้วยกลุ่มของคำที่เกี่ยวข้องหรือ กลุ่มของคำเกิดใหม่ งานวิจัยหลายงานนำเสนอวิธีการตรวจจับกลุ่มคำเหล่านี้โดยใช้คุณลักษณะที่ สร้างจากสถิติของคำที่อยู่ในข้อความทวิตเตอร์ ซึ่งบางคุณลักษณะมีความคล้ายคลึงกับตัวชี้วัดของ หุ้น แต่อย่างไรก็ตามวิธีเหล่านี้ใช้เพียงคุณลักษณะเดียว ซึ่งเป็นการยากที่จะตรวจจับคำเกิดใหม่ได้ หลากหลายรูปแบบ แม้จะมีบางงานวิจัยพยายามใช้หลายคุณลักษณะด้วยตัวจำแนกประเภท แต่ ด้วยข้อจำกัดของการสร้างตัวแปรผลเฉลยของข้อมูลที่ใช้ในการสอนตัวจำแนกประเภท ทำให้ยาก ต่อการนำไปใช้ นอกจากนี้ในงานวิจัยที่เกี่ยวข้องกับการตรวจจับหัวข้อเกิดใหม่ ไม่มีชุดผลเฉลยที่ ชัดเจน และไม่มีการวัดประสิทธิภาพที่เป็นมาตรฐาน ในงานวิจัยนี้จึงเสนอการตรวจจับหัวข้อเกิด ใหม่ด้วยคุณลักษณะจากตัวชี้วัดของหุ้นที่นิยมใช้ในปัจจุบันและมีการปรับปรุงคุณลักษณะดังกล่าว ให้ดียิ่งขึ้น อีกทั้งตัวจำแนกที่ได้ประสิทธิภาพสูงสุด ซึ่งได้แก่ป่าไม้แบบสุ่ม ถูกนำมาใช้ในการ ตรวจจับคำเกิดใหม่โดยไม่มีข้อจำกัดในการสร้างตัวแปรผลเฉลยของข้อมูล สุดท้ายเพื่อให้สามารถ วัดประสิทธิภาพในการตรวจจับคำและหัวข้อเกิดใหม่ จึงทำการสร้างชุดผลเฉลยรายวันและใช้ชุด ผลเฉลยดังกล่าวในการวัดประสิทธิภาพด้วยมาตรวัดประสิทธิภาพของหัวข้อแบบแมโครที่สามารถ วัดประสิทธิภาพในแง่มุมของคำและหัวข้อเกิดใหม่พร้อมกัน จากการทดลองพบว่าประสิทธิภาพ ของวิธีที่นำเสนอในงานวิจัยนี้ สามารถตรวจจับคำและหัวข้อเกิดใหม่ได้อย่างมีประสิทธิภาพดีกว่า วิธีการในปัจจุบัน ได้แก่ SigniTrend และ TopicSketch นอกจากนี้ยังพบว่าวิธีที่นำเสนอใน งานวิจัยนี้สามารถตรวจจับคำและหัวข้อเกิดใหม่ได้ก่อนงานวิจัยอื่น
Other Abstract (Other language abstract of ETD)
Social media is one of the most impactful and fastest communication methods. By monitoring Twitter streams, we are able to detect an interesting event, "emerging topic", in near real-time. Each emerging topic contains a group of related keywords or "emerging keyword". Some prior attempts aim to detect topics on Twitter based on word's statistic, where some of them are similar to stock indicators. However, they only use univariate feature. Therefore, it is hard to detect various types of emerging topics. Although some research uses multivariate features with a classifier, its use case is very limited due to constraints in the data labeling process. Moreover, there are no standard answer set and no standard performance evaluation method in this research field. In this research, we propose an algorithm to detect emerging topics on Twitter streams. Many stock indicators are applied and improved. To capture event patterns, various classifiers are compared and RandomForest is selected. Moreover, there are no limitations in the data labeling process. We create a daily answer set and new standard evaluation metric called "Macro topic measurement" which can evaluate the performance of both keyword and topic detection. The experiment shows that our method outperforms other baselines: SigniTrend, and TopicSketch. Furthermore, our method can detect emerging keyword earlier than other baselines.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
วีระสกุลวงศ์, เอกภพ, "การตรวจจับหัวข้ออัตโนมัติบนข้อมูลทวิตเตอร์โดยการใช้คุณลักษณะจากตัวชี้วัดของหุ้น" (2018). Chulalongkorn University Theses and Dissertations (Chula ETD). 3380.
https://digital.car.chula.ac.th/chulaetd/3380