Chulalongkorn University Theses and Dissertations (Chula ETD)

การออกแบบและพัฒนาส่วนจำเพาะการค้นข้อความไทยในเอกสารพีดีเอฟ

Other Title (Parallel Title in Other Language of ETD)

A design and development of a Thai text search module in PDF files

Year (A.D.)

2000

Document Type

Thesis

First Advisor

สมชาย ประสิทธิ์จูตระกูล

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2000.979

Abstract

วิทยานิพนธ์นี้นำเสนอการออกแบบและพัฒนาส่วนจำเพาะซึ่งใช้สำหรับการค้นข้อความไทยในเอกสารพีดีเอฟ ส่วนจำเพาะนี้มีหน้าที่หลักคือการถอดรหัสอักขระ การเปรียบเทียบลายอักขระ และการแสดงตำแหน่งในเอกสารที่ค้นพบ ความซับซ้อนของส่วนจำเพาะนี้อยู่ที่ขั้นตอนการถอดรหัส ทั้งนี้เนื่องจากเครื่องมือการสร้างเอกสารพีดีเอฟในปัจจุบันไม่สนับสนุนการเข้ารหัสภาษาไทยที่เป็นมาตรฐาน ดังนั้นอักขระไทยต่างๆ ในเอกสารพีดีเอฟ จึงถูกเข้ารหัสในหลากหลายรูปแบบ ขั้นตอนการถอดรหัสอาศัยข้อมูลของแบบอักษรชื่ออักขระและสภาพแวดล้อมที่สร้างเอกสารพีดีเอฟนั้นๆ ประกอบการวิเคราะห์การถอดรหัส การพัฒนาอาศัยชุดพัฒนาส่วนจำเพาะที่ใช้ได้กับซอฟต์แวร์แสดงเอกสารพีดีเอฟอะโครแบต ส่วนจำเพาะสามารถค้นข้อความไทยในเอกสารพีดีเอฟที่มีการเข้ารหัสภาษาไทยในรูป แบบคงที่ได้ทุกรูป แบบ

Other Abstract (Other language abstract of ETD)

This thesis presents a design and development of a Thai text search module in PDF files. The Objectives of this module are to decode characters, match strings, and highlight the matched strings. The complexity of the module is in the decoding step since current PDF creation tools do not support standard Thai character encoding. As a result, Thai characters are encoded in many different formats. The decoding step uses font description, character names, and information related to tools and environment used for generating PDF files for analyzing encoded characters. The module was developed using Acrobat PDF software development kit. The module can search Thai text in any fixed-format encoded PDF files.

Share

COinS