Chulalongkorn University Theses and Dissertations (Chula ETD)
An Algorithm for identifying, extracting and converting a table structure from a document inage into LaTeX format
Other Title (Parallel Title in Other Language of ETD)
ขั้นตอนวิธีสำหรับการบ่งชี้การสกัดและการแปลงโครงสร้างตารางจากภาพเอกสารเป็นรูปแบบลาเท็กซ์
Year (A.D.)
2002
Document Type
Thesis
First Advisor
Chidchanok Lursinsap
Faculty/College
Faculty of Science (คณะวิทยาศาสตร์)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Computational Science
DOI
10.58837/CHULA.THE.2002.1104
Abstract
Table analysis is one of the attractive and challenging problems in document image analysis that encompasses table identification and table recognition. Table identification is based on the techniques of page segmentation and classification, whereby the results so extracted are analyzed and stored in some prearranged structures. This study proposes an algorithm for table analysis that starts from separating a document image into individual blocks. A non-tabled block is determined by the arrangement of data inside the block and the position of lines. Then, the recognized table blocks are converted into LaTeX formatted tables suitable for subsequent modification, storage, retrieval and transmission. The algorithm was tested with image blocks extracted from actual document images and synthesis samples. Various styles of tabled block-lines and data arrangement were correctly identified and analyzed. The algorithm gave good results for input samples having less skewed angle and noise.
Other Abstract (Other language abstract of ETD)
การวิเคราะห์ตารางเป็นส่วนหนึ่งของปัญหาการวิเคราะห์ภาพเอกสารที่น่าสนใจ ประกอบด้วยวิธีการบ่งชี้ตารางซึ่งอยู่บนพื้นฐานของเทคนิคการแบ่งภาพและแยก ประเภทออกเป็นส่วน และวิธีการรู้จำตาราง วิทยานิพนธ์นี้เสนอขั้นตอนวิธีใหม่สำหรับการวิเคราะห์ตาราง เริ่มจากการแบ่งภาพเอกสารออกเป็นส่วนๆ ส่วนที่ไม่ใช่ตารางจะถูกกำหนดโดยการเรียงตัวของก้อนข้อมูลและตำแหน่งของเส้น แล้วส่วนที่เป็นตารางจะถูกแปลงเป็นรูปแบบลาเท็กซ์ ซึ่งเหมาะสำหรับการแก้ไข การจัดเก็บ การนำมาใช้ใหม่ และการส่งข้อมูล ขั้นตอนวิธีนี้ถูกทดสอบกับตัวอย่างที่เป็นส่วนที่สกัดมาจากภาพเอกสารจริง และจากการสร้างขึ้นเอง ตารางที่มีการเรียงตัวของข้อมูลและเส้นหลายรูปแบบถูกบ่งชี้และวิเคราะห์ได้ อย่างถูกต้อง ขั้นตอนวิธีที่ใช้นี้ให้ผลที่ดีกับตัวอย่างที่เอียงไม่มากและมีสิ่งรบกวน น้อย
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Sethasopon, San, "An Algorithm for identifying, extracting and converting a table structure from a document inage into LaTeX format" (2002). Chulalongkorn University Theses and Dissertations (Chula ETD). 55172.
https://digital.car.chula.ac.th/chulaetd/55172