Chulalongkorn University Theses and Dissertations (Chula ETD)
การรู้จำตัวอักษรไทยโดยใช้ซัพพอร์ตเวกเตอร์แมชชีนและเคอร์เนล
Other Title (Parallel Title in Other Language of ETD)
Thai character recognition using Support Vector Machines and Kernels
Year (A.D.)
2002
Document Type
Thesis
First Advisor
บุญเสริม กิจศิริกุล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2002.1225
Abstract
ปรับปรุงความถูกต้องในการรู้จำของโปรแกรมโอซีอาร์ภาษาไทย โดยได้นำเอาเทคนิคของซัพพอร์ตเวกเตอร์แมชชีน (เอสวีเอ็ม) และเคอร์เนลเข้ามาประยุกต์ใช้ในส่วนของการวิเคราะห์องค์ประกอบสำคัญของข้อมูล ซึ่งเป็นกระบวนการที่สำคัญในการดึงเอาลักษณะสำคัญของข้อมูลรูปภาพตัวอักษร ก่อนที่จะส่งข้อมูลที่ได้ไปยังส่วนรู้จำของโปรแกรมโอซีอาร์ เพื่อแยกแยะว่าเป็นตัวอักษรชนิดใดต่อไป โดยเรียกเทคนิคการวิเคราะห์องค์ประกอบสำคัญของข้อมูลแบบใหม่นี้เรียกว่า การวิเคราะห์องค์ประกอบสำคัญของข้อมูลแบบเคอร์เนล ในวิทยานิพนธ์ฉบับนี้ ได้แบ่งรูปภาพที่ใช้ทดสอบออกเป็นสองกลุ่ม คือรูปภาพชุดเรียนรู้จำนวน 8,544 ตัว และรูปภาพชุดทดสอบจำนวน 1,424 ตัว ประกอบด้วยตัวอักษรแบบ AngsanaUPC, BrowalliaUPC, CordiaUPC, DilleniaUPC, EucrosiaUPC และ FreesiaUPC แต่ละแบบประกอบด้วยตัวอักษรขนาด 14, 16, 18, 20, 22, 24, 28 และ 36 จุด ผลของการทดสอบพบว่า ผลของการรู้จำของโปรแกรมโอซีอาร์ภาษาไทย ที่ใช้เทคนิคของการวิเคราะห์องค์ประกอบสำคัญของข้อมูลแบบเคอร์เนล ให้ผลการรู้จำที่ดีขึ้นจากโปรแกรมโอซีอาร์ภาษาไทยตัวเดิม อย่างไรก็ตาม วิธีใหม่นี้กลับใช้หน่วยความจำและเวลาที่เพิ่มขึ้นจากเดิม
Other Abstract (Other language abstract of ETD)
To improve the accuracy of a Thai Optical Character Recognition (Thai-OCR) program. We extend the Principal Component Analysis method, which is used to extract features from character images, to a new method called Kernel Principal Component Analysis by using Support Vector Machines and Kernels. In this thesis, we divided the data into 2 groups: the training set of 8,544 character images and the test set of 1,424 character images. In our experiment, the data set consists of character images from 6 fonts: AngsanaUPC, BrowalliaUPC, CordiaUPC, DilleniaUPC, EucrosiaUPC and FreesiaUPC each font composed of size 14, 16, 18, 20, 22, 24, 28 and 36 points. The experimental results show that Thai-OCR which uses Kernel Principal Component Analysis gives better results than the previous one using the original Principal Component Analysis. However, the new method consumes more memory space and processing time.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
เบศรภิญโญวงศ์, พัฒนชัย, "การรู้จำตัวอักษรไทยโดยใช้ซัพพอร์ตเวกเตอร์แมชชีนและเคอร์เนล" (2002). Chulalongkorn University Theses and Dissertations (Chula ETD). 64456.
https://digital.car.chula.ac.th/chulaetd/64456