Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

การปรับปรุงการตรวจหาประทุษวาจาภาษาจีนด้วยการรวมตัวเบิร์ท-ฟาสเท็กซ์และการรวมตัวเบิร์ท-ไบแอลเอสทีเอ็ม

Year (A.D.)

2025

Document Type

Thesis

First Advisor

Arthorn Luangsodsai

Second Advisor

Pakawan Pugsee

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Department (if any)

Department of Mathematics and Computer Science (ภาควิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์)

Degree Name

Master of Science

Degree Level

Master's Degree

Degree Discipline

Computer Science and Information Technology

DOI

10.58837/CHULA.THE.2025.213

Abstract

Hate speech detection is an essential technique in the online environment, especially on social media platforms. This technique helps to create a safer space and reduce the risk of real-world harm. In Chinese, this task is particularly challenging because of unique linguistic structures and the frequent use of indirect expressions, sarcasm, homophones, character variants, and abbreviations. This study investigates how to improve Chinese hate speech detection by combining BERT with FastText and BERT with BiLSTM. There are six model variants that are configured: frozen BERT and fine-tuned BERT, each further extended with either FastText sentence embeddings or a clause-level BiLSTM. Experiments are conducted on a self-annotated Chinese social media dataset and the public COLDataset corpus, including a cross-dataset setting where models are trained on the self-annotated data and evaluated on COLDataset. The results show that fine-tuned BERT is the main factor of performance gain, and that combining FastText or BiLSTM improves over the corresponding BERT baselines. Among all models, fine-tuned BERT combined with FastText achieves the best in-domain performance, reaching 92.58% accuracy on the self-annotated dataset, while also having strong ROC–AUC in the cross-dataset evaluation. Overall, these findings indicate that simple feature-level fusion of BERT with lexical or clause-level information is an effective and computationally practical way to improve Chinese hate speech detection.

Other Abstract (Other language abstract of ETD)

การตรวจหาประทุษวาจาเป็นเทคนิคที่มีความจำเป็นอย่างยิ่งในสภาพแวดล้อมออนไลน์ โดยเฉพาะบนแพลตฟอร์มโซเชียลมีเดีย เทคนิคนี้ช่วยสร้างพื้นที่ที่ปลอดภัยยิ่งขึ้นและลดความเสี่ยงต่ออันตรายในโลกแห่งความเป็นจริง สำหรับภาษาจีนนั้นงานนี้มีความท้าทายเป็นพิเศษ เนื่องจากโครงสร้างภาษาเฉพาะตัว รวมถึงการใช้ถ้อยคำอ้อมค้อม การประชดประชัน คำพ้องเสียง ตัวอักษรที่หลากหลาย และคำย่ออยู่บ่อยครั้ง งานวิจัยนี้ศึกษาวิธีการพัฒนาการตรวจหาประทุษวาจา โดยการรวม BERT เข้ากับ FastText และรวม BERT เข้ากับ BiLSTM มีการกำหนดรูปแบบโมเดลทั้งหมดหกรูปแบบ ได้แก่ frozen BERT และ fine-tuned BERT โดยแต่ละแบบขยายเพิ่มด้วยเวกเตอร์ของประโยคจาก FastText หรืออนุประโยคจาก BiLSTM การทดลองดำเนินการบนชุดข้อมูลโซเชียลมีเดียภาษาจีนที่จัดทำและใส่ป้ายกำกับเอง รวมถึงชุดข้อมูลสาธารณะ COLDataset นอกจากนี้ยังมีการทดลองแบบข้ามชุดข้อมูลโดยฝึกโมเดลด้วยชุดข้อมูลที่ใส่ป้ายกำกับเองและทดสอบด้วยชุดข้อมูล COLDataset ผลลัพธ์แสดงให้เห็นว่า fine-tuned BERT เป็นปัจจัยสำคัญที่ทำให้ประสิทธิภาพดีขึ้นและการรวมกับ FastText หรือ BiLSTM ยังช่วยเพิ่มคุณภาพเมื่อเทียบกับโมเดล BERT พื้นฐาน จากโมเดลทั้งหมด fine-tuned BERT ที่รวมกับ FastText ให้ประสิทธิภาพดีที่สุดภายในชุดข้อมูลเดียวกัน โดยได้ความแม่นยำ 92.58% บนชุดข้อมูลที่ใส่ป้ายกำกับเอง และยังได้ค่า ROC–AUC ที่ดีในการประเมินแบบข้ามชุดข้อมูล โดยรวมแล้วผลการศึกษาชี้ให้เห็นว่าการรวมคุณลักษณะ (feature-level fusion) ระหว่าง BERT กับข้อมูลเชิงคำศัพท์หรืออนุประโยค เป็นวิธีที่มีประสิทธิภาพและใช้งานได้จริงในการตรวจหาประทุษวาจาในภาษาจีน.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.