Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Gender classification of Thai username on Facebook

Year (A.D.)

2019

Document Type

Thesis

First Advisor

สุกรี สินธุภิญโญ

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2019.1145

Abstract

วิทยานิพนธ์นี้นำเสนอการนำการเรียนรู้ของเครื่องมาประยุกต์ในการจำแนกเพศผู้ใช้งานเฟซบุ๊กโดยใช้เพียงชื่อผู้ใช้งานเท่านั้น ซึ่งข้อมูลส่วนตัวของผู้ใช้งานของโซเชียลเนตเวิร์คมีความสำคัญในการนำมาวิเคราะห์ แต่บางครั้งไม่มีการเปิดเผยข้อมูล เช่น อายุ หรือเพศ โดยการศึกษาส่วนใหญ่มักจะนำเอาข้อความบนเว็บเพจมาวิเคราะห์ แต่การศึกษานี้เลือกใช้ชื่อผู้ใช้งานในการจำแนกเพศ โดยเพศสามารถอนุมานได้จากทั้งชื่อจริงและชื่อแฝงของผู้ใช้งาน โดยงานวิจัยนี้สนใจเฉพาะชื่อที่เป็นภาษาไทย ซึ่งชื่อของคนไทยจะมีรูปแบบที่สามารถแสดงตัวตนความเป็นเพศได้ การรวมกันของแบบจำลองสำหรับการจำแนกเพศจากชื่อผู้ใช้งานภาษาไทยบนเฟซบุ๊กที่แตกต่างกัน ในแต่ละแบบจำลองมีการเรียนรู้โดยใช้วิธีการเรียนรู้แบบจำลองเชิงทำนาย ได้แก่ การจำแนกเพศจากชื่อจริง การจำแนกเพศจากชื่อแฝง การจำแนกชื่อจริงและชื่อแฝง และการจำแนกชื่อทั้งหมด โดยผลการจำแนกทั้งหมดจะถูกรวมในแบบจำลองสุดท้าย เมื่อใช้วิธีนี้แบบจำลองมีความถูกต้องที่ 85.85% ซึ่งได้ผลลัพธ์ที่ดีกว่าเมื่อเปรียบเทียบกับการจำแนกเพศโดยคน ที่มีความถูกต้องที่ 77.03%

Other Abstract (Other language abstract of ETD)

This thesis presents an application of machine learning to classify Facebook users’ gender based on their username alone. User profile information on social networks is important in many studies, but occasionally no information is publicly available online, such as age or gender. Most studies only use textual information from the web page. Instead, we opted to study gender classification by username, in which the gender is inferred from the users first name and alias name. We focused only on Thai names which may have certain patterns that reveal the owner’s gender. A combination of different models is proposed to classify gender based on Thai Facebook usernames. Each model was trained using a supervised learning approach include gender classification from first name, gender classification from alias name, first name and alias name classification, and gender classification from all usernames. Furthermore, all the classification results were combined into a final model. Using this method, the model achieved 85.85% level of accuracy. Which has better results when compared to gender classification by the human that has accuracy is 77.03%

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.