Chulalongkorn University Theses and Dissertations (Chula ETD)
การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน
Other Title (Parallel Title in Other Language of ETD)
Noise reduction in Thai-OCR using semi-supervised learning
Year (A.D.)
2009
Document Type
Thesis
First Advisor
สุกรี สินธุภิญโญ
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2009.1330
Abstract
ตัวอักษรไทยเป็นหนึ่งในตัวอักษรที่มีความซับซ้อนมากที่สุด เนื่องจากการวิธีการเขียนตัวภาษาไทยนั้นตัวอักษรของตัวอักษรมีได้หลายระดับ นอกจากนั้นตัวอักษรภาษาไทยยังประกอบไปด้วยตัวอักษรขนาดเล็ก ๆ จำนวนมาก และในภาษาไทยไม่มีสัญลักษณ์ในการแบ่งคำหรือประโยค ด้วยลักษณะเฉพาะของภาษาไทยเหล่านี้ การนำวิธีการลดสิ่งรบกวนที่มีผู้นำเสนอและทดสอบว่ามีประสิทธิภาพที่ดีในการลดสิ่งรบกวนในเอกสารภาษาอังกฤษมาใช้กับเอกสารภาษาไทยกลับได้ผลลัพธ์ที่ไม่ดีนัก ดังนั้นในงานวิจัยนี้จึงเสนอวิธีการลดสิ่งรบกวนซึ่งเหมาะสมกับเอกสารภาษาไทยโดยใช้การเรียนรู้ของเครื่องแบบกึ่งสอน ผลลัพธ์ที่ได้จากการทดลองพบว่าวิธีที่นำเสนอนี้ไม่เพียงแต่สามารถลดสิ่งรบกวนในเอกสารอย่างเห็นได้ชัด ยังพบว่าตัวอักษรภาษาไทยที่มีขนาดเล็กนั้นไม่ถูกลบออกไปจากเอกสารไปด้วย
Other Abstract (Other language abstract of ETD)
Thai characters are one of the most complex characters since they can be aligned into different levels, are composed of a number of small components, and have no word-separating symbols. Hence, noise reduction algorithms which are successfully applied to English documents might yield a poor result from Thai documents. This paper thus proposes a novel noise reduction method that is suitable for Thai documents using a semi-supervised learning approach. Results obtained from our method shows that our method does not only obviously remove the noise but also preserve small components of Thai characters as well
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
พิรุฬห์ทรัพย์, นรีพร, "การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน" (2009). Chulalongkorn University Theses and Dissertations (Chula ETD). 67562.
https://digital.car.chula.ac.th/chulaetd/67562