Chulalongkorn University Theses and Dissertations (Chula ETD)
เทคนิคการลดมิติข้อมูลสำหรับการรู้จำลายมือเขียนภาษาไทยแบบออฟไลน์
Other Title (Parallel Title in Other Language of ETD)
Dimensionality reduction techniques for off-line Thai handwritten character recognition
Year (A.D.)
2008
Document Type
Thesis
First Advisor
บุญเสริม กิจศิริกุล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2008.1255
Abstract
วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์เพื่อทำการหาวิธีการลดมิติสำหรับการรู้จำตัวอักษรลาย มือเขียนภาษาไทยที่มีความเหมาะสมสำหรับการรู้จำโดยใช้วิธีการเพื่อนบ้านใกล้สุด k ตัวเป็นตัวจำแนกประเภท โดยทำการเปรียบเทียบอัตราการรู้จำด้วยวิธีการลดมิติต่างๆ ได้แก่ พีซีเอ, แอลดีเอ, แอล-เอ็มดีเอส, แอลพีพี, แอลดีอี, ดีเอ็นอี และแอล-ไอโซแมป นอกจากนี้ยังได้เสนอเทคนิคการทำภาพเบลอแบบกระจายเพื่อใช้ในขั้นตอนการประมวลผลภาพเบื้องต้นเพื่อให้การวัดความคล้าย กันของข้อมูลด้วยระยะห่างยุคลิดมีความถูกต้องมากยิ่งขึ้น การทดลองแบ่งออกเป็น 2 การทดลองหลัก คือ 1. การทดสอบประสิทธิภาพของการทำภาพเบลอแบบกระจาย และ 2. การทดสอบประสิทธิภาพในการรู้จำตัวอักษรโดยใช้วิธีการลดมิติแต่ละวิธี ภายในแต่ละการทดลองได้แบ่งชุดข้อมูลทดสอบออกเป็นชุดที่ขึ้นต่อผู้เขียนและชุดทดสอบที่ไม่ขึ้นต่อผู้เขียน ตัวอักษรทั้งหมดถูกแบ่งออกเป็น 3 กลุ่มใหญ่ตามตำแหน่งในการเขียน คือ ตัวอักษรระดับบน, ระดับกลาง และระดับล่างของบรรทัด และยังได้ทำการเพิ่มกลุ่มย่อยสำหรับตัวอักษรที่มีความคล้ายคลึงกันในบางการทดลองด้วย ผลการทดลองพบว่าการลดมิติด้วยวิธีดีเอ็นอีให้อัตราการรู้จำโดยเฉลี่ยดีกว่าวิธีการลดมิติแบบอื่นทั้งหมด ทั้งยังมีความง่ายในการนำไปใช้งานเพราะมีตัวแปรเพียง 1 ตัวนั่นคือจำนวนเพื่อนบ้านในขั้นตอนการสร้างกราฟ จากผลการทดลองยังแสดงให้เห็นอีกว่าการทำภาพเบลอแบบกระจายในขั้นตอนการประมวลผลภาพเบื้องต้นทำให้อัตราการรู้จำเพิ่มขึ้นในทุกๆ การทดลอง โดยผลการทดลองที่ดีที่สุดสำหรับชุดข้อมูลทดสอบที่ขึ้นต่อผู้เขียนและไม่ขึ้นต่อผู้เขียนมีอัตราการรู้จำที่ 88.01 เปอร์เซ็นต์ และ 84.45 เปอร์เซ็นต์ ตามลำดับ โดยใช้วิธีดีเอ็นอีในการลดมิติ
Other Abstract (Other language abstract of ETD)
In this research, various types of dimensionality reduction techniques, i.e. PCA, LDA, L-MDS, LPP, LDE, DNE and L-ISOMAP were applied to Thai Optical Character Recognition (Thai OCR). The goal is to find a technique suitable for Thai OCR which uses the k-nearest neighbor algorithm (k-nn) as a classifier. We also propose the image blurring technique called “diffusion blurring" for image-preprocessing step to improve distance measurement by euclidean distance. The experiments were divided into two sub-experiments. The first sub-experiment was for performance of blurring techniques. The second sub-experiment was conducted for evaluating the dimensionality reduction techniques. In each experiment, we divided data into two datasets, writer-dependent and writer-independent datasets. The characters were divided into three major groups i.e. top level, middle level and bottom level character classes and also divided into minor groups for similar characters in some experiments. The experimental results show that DNE outperformed the other dimensionality reduction techniques and was easy to use due to only one adjustable parameter that is the number of neighbors for graph construction. The results also show that the diffusion blurring technique improved the performance for all experiments. The best results for the writer-dependent dataset and the writer-independent dataset were 88.01% and 84.45% respectively by using DNE as a dimensionality reduction technique.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ปัญญาโสภณเลิศ, โกวิท, "เทคนิคการลดมิติข้อมูลสำหรับการรู้จำลายมือเขียนภาษาไทยแบบออฟไลน์" (2008). Chulalongkorn University Theses and Dissertations (Chula ETD). 67116.
https://digital.car.chula.ac.th/chulaetd/67116