Chulalongkorn University Theses and Dissertations (Chula ETD)

การแยกตัวอักษรภาษาไทยที่ติดกัน เพื่อการรู้จำตัวอักษรพิมพ์ภาษาไทย

Other Title (Parallel Title in Other Language of ETD)

Touching Thai character segmentation for Thai character recognition

Year (A.D.)

2000

Document Type

Thesis

First Advisor

บุญเสริม กิจศิริกุล

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2000.971

Abstract

วิทยานิพนธ์ฉบับนี้มีจุดมุ่งหมายเพื่อสร้างระบบการตัดแยกตัวอักษรภาษาไทยที่ติดกัน โดยลักษณะบ่งความต่างของอักษรไทย ซึ่งสามารถแบ่งออกเป็น 3 ขั้นตอนคือ ส่วนวิเคราะห์หาตัวอักษรที่ติดกัน โดยแบ่งกลุ่มของตัวอักษรตามระดับของตัวอักษรออกเป็น 5 กลุ่ม แล้วจัดกลุ่มที่สามารถติดกันได้โดยสามารถแบ่งออกเป็นกลุ่มตัวอักษรที่ติดกันได้ถึง 11 กลุ่ม ส่วนวิเคราะห์หาจุดตัดแยก ในส่วนนี้ใช้วิธีโปรเจกชั่นในแนวดิ่ง และแนวนอนวิธี นิวเมตริกซ์ในแนวดิ่งและแนวนอน และวิธี หาอนุพันธ์อันดับที่สองของค่าโปรเจกชั่น กับค่าโปรเจกซัน ส่วนวิเคราะห์ตัดแยกตัวอักษร ใช้วิธีการตัดแบบตรง การตัดโดยตัดตามขอบของตัวอักษรที่ติดกัน และการตัดอักษรที่ไขว้กัน ผลการวิจัยพบว่า การตัดแยกตัวอักษรพิมพ์ภาษาไทย มีความถูกต้องร้อยละ 63.14% โดย ประมาณ และใช้เวลาโดยเฉลี่ย 22.07 ตัวอักษรต่อวินาที โดยทำการทดสอบบนเครื่องไมโครคอมพิวเตอร์ CPU Pentium II 400 MHz จำนวนตัวอักษรที่ทำการทดลอบประมาณ 13,563 ตัวอักษร

Other Abstract (Other language abstract of ETD)

The objective of this thesis is to propose a method for segmentation of connected Thai characters’ based on Thai character distinctive features. The method consist of 3 main parts ; 1) a module of connected character analysis that classifies Thai characters into 5 groups by using levels of the characters and then grouping them into 11 groups of connected characters if possible, 2) a module of connected point analysis that includes vertical and horizontal projection techniques, new matrix and the 2nd derivative of projection techniques, and 3) a module of character segmentation analysis that uses vertical cut, contour cut and cross cut techniques. The result of this thesis shows that the accuracy of character segmentation is 63.14% on average, processing time is 22.07 characters per second. The experiment is conducted on a microcomputer of CPU Pentium II 400 MHz by using documents consisting of 13,563 characters.

Share

COinS