Chulalongkorn University Theses and Dissertations (Chula ETD)

การแยกตัวอักษรจากลายมือเขียนภาษาไทยที่เป็นคำ

Other Title (Parallel Title in Other Language of ETD)

Segmentation of handwritten Thai words

Year (A.D.)

2001

Document Type

Thesis

First Advisor

สมชาย จิตะพันธ์กุล

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมไฟฟ้า

DOI

10.58837/CHULA.THE.2001.1315

Abstract

สร้างกระบวนการตัดแยกตัวอักษรลายมือเขียนภาษาไทย โดยใช้วิธีการแยกตัวอักษรด้วยการวิเคราะห์องค์ประกอบเชิงภาพ (Image based or dissection) ร่วมกับความรู้ฮิวริสติคซึ่งได้จากการวิเคราะห์โครงสร้างตัวอักษรภาษาไทย มาใช้ในการตรวจสอบบริเวณการติดกันของตัวอักษร เพื่อหาแนวทางการแยกการติดกันของตัวอักษร (Segmentation Path) ที่เหมาะสม ผลการทดสอบกระทำบนเครื่องไมโครคอมพิวเตอร์ ที่ใช้หน่วยประมวลผลการเป็นเพนเทียมความเร็ว 733 เมกะเฮิรตซ์ และมีหน่วยความจำแรม 128 เมกะไบต์ ฐานข้อมูลภาพคำที่ใช้ทดสอบจำนวน 1,539 คำ ประกอบด้วยตัวอักษรจำนวน 12,117 ตัว แบ่งออกเป็น ข้อมูลภาพคำที่มีแต่ตัวอักษรเดี่ยวจำนวน 191 คำ ข้อมูลภาพคำที่มีเฉพาะการติดกันของตัวอักษรในแนวระดับจำนวน 846 คำ ข้อมูลภาพคำที่มีเฉพาะการติดกันของตัวอักษรต่างระดับจำนวน 277 คำ และข้อมูลภาพคำที่มีการติดกันของตัวอักษรทั้งในแนวระดับและต่างระดับจำนวน 225 คำ อัตราความถูกต้องของตัวอักษรที่ได้จากการตัดแยก 84.71%

Other Abstract (Other language abstract of ETD)

To propose a method of image based, segmentation of Thai handwritten word. The segmentation algorithms proposed in this thesis are formed using heuristically analysis of Thai character to identify the patterns of Thai character connection. The experiment was conducted on a microcomputer with Pentium III 733 MHz and 128 Mbytes RAM. Database of 1,539 Thai handwritten word images, composed of 12,117 characters. was tested to verify the proposed segmentation scheme. The database can be separated to 191 word images which all the characters are single characters, 846 word images in which only internal character connections are located, 277 word images in which only external character connections are included, and 225 word images in which both internal character connections and external character connections are located. Correct segmented character rate is 84.71%.

Share

COinS