Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Automatic Topic Detection on Twitter Data Using Stock Indicator Based Features

Year (A.D.)

2018

Document Type

Thesis

First Advisor

พีรพล เวทีกูล

Second Advisor

อภิวดี ปิยธรรมรงค์

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2018.1249

Abstract

สื่อสังคมออนไลน์เป็นหนึ่งในการสื่อสารที่สำคัญและรวดเร็วที่สุดในปัจจุบัน การ สังเกตการณ์ข้อมูลทวิตเตอร์ทำให้สามารถตรวจจับเหตุการณ์ที่กำลังเป็นที่สนใจแบบใกล้ทันกาล หรือหัวข้อเกิดใหม่ได้ โดยหัวข้อเกิดใหม่แต่ละหัวข้อจะประกอบด้วยกลุ่มของคำที่เกี่ยวข้องหรือ กลุ่มของคำเกิดใหม่ งานวิจัยหลายงานนำเสนอวิธีการตรวจจับกลุ่มคำเหล่านี้โดยใช้คุณลักษณะที่ สร้างจากสถิติของคำที่อยู่ในข้อความทวิตเตอร์ ซึ่งบางคุณลักษณะมีความคล้ายคลึงกับตัวชี้วัดของ หุ้น แต่อย่างไรก็ตามวิธีเหล่านี้ใช้เพียงคุณลักษณะเดียว ซึ่งเป็นการยากที่จะตรวจจับคำเกิดใหม่ได้ หลากหลายรูปแบบ แม้จะมีบางงานวิจัยพยายามใช้หลายคุณลักษณะด้วยตัวจำแนกประเภท แต่ ด้วยข้อจำกัดของการสร้างตัวแปรผลเฉลยของข้อมูลที่ใช้ในการสอนตัวจำแนกประเภท ทำให้ยาก ต่อการนำไปใช้ นอกจากนี้ในงานวิจัยที่เกี่ยวข้องกับการตรวจจับหัวข้อเกิดใหม่ ไม่มีชุดผลเฉลยที่ ชัดเจน และไม่มีการวัดประสิทธิภาพที่เป็นมาตรฐาน ในงานวิจัยนี้จึงเสนอการตรวจจับหัวข้อเกิด ใหม่ด้วยคุณลักษณะจากตัวชี้วัดของหุ้นที่นิยมใช้ในปัจจุบันและมีการปรับปรุงคุณลักษณะดังกล่าว ให้ดียิ่งขึ้น อีกทั้งตัวจำแนกที่ได้ประสิทธิภาพสูงสุด ซึ่งได้แก่ป่าไม้แบบสุ่ม ถูกนำมาใช้ในการ ตรวจจับคำเกิดใหม่โดยไม่มีข้อจำกัดในการสร้างตัวแปรผลเฉลยของข้อมูล สุดท้ายเพื่อให้สามารถ วัดประสิทธิภาพในการตรวจจับคำและหัวข้อเกิดใหม่ จึงทำการสร้างชุดผลเฉลยรายวันและใช้ชุด ผลเฉลยดังกล่าวในการวัดประสิทธิภาพด้วยมาตรวัดประสิทธิภาพของหัวข้อแบบแมโครที่สามารถ วัดประสิทธิภาพในแง่มุมของคำและหัวข้อเกิดใหม่พร้อมกัน จากการทดลองพบว่าประสิทธิภาพ ของวิธีที่นำเสนอในงานวิจัยนี้ สามารถตรวจจับคำและหัวข้อเกิดใหม่ได้อย่างมีประสิทธิภาพดีกว่า วิธีการในปัจจุบัน ได้แก่ SigniTrend และ TopicSketch นอกจากนี้ยังพบว่าวิธีที่นำเสนอใน งานวิจัยนี้สามารถตรวจจับคำและหัวข้อเกิดใหม่ได้ก่อนงานวิจัยอื่น

Other Abstract (Other language abstract of ETD)

Social media is one of the most impactful and fastest communication methods. By monitoring Twitter streams, we are able to detect an interesting event, "emerging topic", in near real-time. Each emerging topic contains a group of related keywords or "emerging keyword". Some prior attempts aim to detect topics on Twitter based on word's statistic, where some of them are similar to stock indicators. However, they only use univariate feature. Therefore, it is hard to detect various types of emerging topics. Although some research uses multivariate features with a classifier, its use case is very limited due to constraints in the data labeling process. Moreover, there are no standard answer set and no standard performance evaluation method in this research field. In this research, we propose an algorithm to detect emerging topics on Twitter streams. Many stock indicators are applied and improved. To capture event patterns, various classifiers are compared and RandomForest is selected. Moreover, there are no limitations in the data labeling process. We create a daily answer set and new standard evaluation metric called "Macro topic measurement" which can evaluate the performance of both keyword and topic detection. The experiment shows that our method outperforms other baselines: SigniTrend, and TopicSketch. Furthermore, our method can detect emerging keyword earlier than other baselines.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.