Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
วิธีการตัดหน่วยใหม่โดยอิงการปรากฏร่วมเพื่อใช้ในแบบจำลองการแจงหัวข้อด้วยการแจกแจงดีริชเลแฝง
Year (A.D.)
2021
Document Type
Independent Study
First Advisor
Attapol Thamrongrattanarit
Faculty/College
Faculty of Arts (คณะอักษรศาสตร์)
Department (if any)
Department of Linguistics (ภาควิชาภาษาศาสตร์)
Degree Name
Master of Arts
Degree Level
Master's Degree
Degree Discipline
Linguistics
DOI
10.58837/CHULA.IS.2021.103
Abstract
Latent Dirichlet Allocation (LDA) discovers hidden themes in documents by using words as input. Past studies show that merging the words into collocation improves topic coherence in English. However, there are still questions about the best merging strategies, especially in the languages without clear word boundaries, such as Thai and Chinese. We compare chi-squared measure, t-statistics, and raw frequency strategies, and show that merging input tokens with appropriate strategies can improve the goodness of fit and topic coherence of the model.
Other Abstract (Other language abstract of ETD)
การจัดสรรดีริชเลแฝงสามารถค้นพบหัวข้อต่างๆ ที่แฝงอยู่ในเอกสารโดยใช้คำเป็นสิ่งที่ป้อนเข้า งานวิจัยที่ผ่านมาแสดงว่าการรวมคำเป็นคำปรากฎร่วมสามารถทำให้หัวข้อที่ได้มีความเชื่อมโยงกันมากขึ้นในภาษาอังกฤษ แต่ยังคงมีคำถามว่าวิธีใดเป็นวิธีที่ดีที่สุดที่จะรวมคำเข้าด้วยกัน โดยเฉพาะอย่างยิ่งในภาษาที่ไม่มีสัญลักษณ์แบ่งคำที่ชัดเจนอย่างภาษาจีนและภาษาไทย ผู้ดำเนินงานวิจัยได้เปรียบเทียบวิธี การทดสอบไคสแควร์ สถิติทดสอบที และความถี่ และแสดงว่าการรวมคำที่ป้อนเข้าด้วยวิธีที่เหมาะสมจะสามารถทำให้ความเหมาะสมกับข้อมูลของแบบจำลอง (goodness of fit) และความเชื่อมโยงกันของหัวข้อของแบบจำลองดีขึ้น
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Cheevaprawatdomrong, Jin, "Collocation-based retokenization methods for latent dirichlet allocation topic models" (2021). Chulalongkorn University Theses and Dissertations (Chula ETD). 7719.
https://digital.car.chula.ac.th/chulaetd/7719