Chulalongkorn University Theses and Dissertations (Chula ETD)
การรู้จำตัวอักษรพิมพ์ภาษาไทยโดยใช้หน่วยความจำระยะสั้นแบบยาว
Other Title (Parallel Title in Other Language of ETD)
Thai printed character recognition using long short-term memory
Year (A.D.)
2016
Document Type
Thesis
First Advisor
บุญเสริม กิจศิริกุล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2016.825
Abstract
วิธีแบ่งส่วนสำหรับการรู้จำตัวอักษรทำงานโดยการแบ่งภาพบรรทัดตัวอักษรเป็นภาพตัวอักษรและนำไปรู้จำตัวอักษรแต่ละตัวอักษร วิธีนี้ได้รับผลกระทบจากประสิทธิภาพของกระบวนการแบ่งส่วนในปัญหาตัวอักษรที่เชื่อมติดกันหรือตัวอักษรที่บางส่วนขาดหายอย่างมาก ในขณะที่วิธีไม่แบ่งส่วนจะทำการรู้จำภาพบรรทัดตัวอักษรโดยไม่แบ่งส่วนภาพตัวอักษรแต่ละตัว วิธีนี้เหมาะสมกับภาษาอย่างเช่นภาษาไทยที่ประกอบด้วยตัวอักษรที่เชื่อมติดกันจำนวนมาก เป้าหมายของวิทยานิพนธ์นี้คือการประยุกต์ใช้หน่วยความจำระยะสั้นแบบยาว ซึ่งเป็นวิธีไม่แบ่งส่วนในการรู้จำตัวอักษรภาษาไทย นอกจากนี้วิทยานิพนธ์นำเสนอวิธีการเลื่อนองค์ประกอบแนวตั้ง ในการแก้ไขปัญหารูปแบบการรวมกันของตัวอักษรที่เกิดขึ้นแนวตั้งจำนวนมากบนโครงสร้างตัวอักษรสี่ระดับของภาษาไทย และยากต่อการนำมาใช้กับโครงข่ายหน่วยความจำระยะสั้นแบบยาวมาตรฐาน ผลการทดลองแสดงค่าความแม่นยำเปรียบเทียบวิธีที่นำเสนอบนโครงข่ายหน่วยความจำระยะสั้นแบบยาวมาตรฐาน กับซอฟต์แวร์เชิงพาณิชย์ในการรู้จำตัวอักษรภาษาไทย
Other Abstract (Other language abstract of ETD)
The segmentation-based approach for Optical Character Recognition (OCR) works by first segmenting a text line image into individual character images and then recognizing the characters. The approach relies heavily on the performance of the segmentation process and thus suffers from the problem of touching and broken characters. On the other hand, the unsegmented approach for OCR processes the text line image without segmenting the image into individual characters, and the approach is more suitable for languages such as Thai that contains a lot of touching characters in nature. This thesis proposes an application of Long Short-Term Memory (LSTM), which is an unsegmented method, to Thai OCR. The thesis also introduces a method called vertical component shifting to solve the problem of a large number of vertically occurring character combinations that occur in four-level writing system of Thai, and pose difficulty for standard LSTM networks. The experimental results demonstrate the better accuracy of our proposed method over standard LSTM networks and other commercial software for Thai OCR.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
เอี่ยมสวัสดิ์, ทวีศักดิ์, "การรู้จำตัวอักษรพิมพ์ภาษาไทยโดยใช้หน่วยความจำระยะสั้นแบบยาว" (2016). Chulalongkorn University Theses and Dissertations (Chula ETD). 70624.
https://digital.car.chula.ac.th/chulaetd/70624