Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

ระบบทําความเข้าใจเอกสารแบบฟอร์มแบบทนทานต่อข้อมูลนําเข้า ด้วยนิวรัลเน็ตเวิร์คแบบกราฟ

Year (A.D.)

2024

Document Type

Thesis

First Advisor

Thanarat Chalidabhongse

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

Master of Engineering

Degree Level

Master's Degree

Degree Discipline

Computer Engineering

DOI

10.58837/CHULA.THE.2024.1059

Abstract

In this work, we address the challenge of form understanding in real-world documents affected by OCR noise and layout uncertainty. We introduce TONDFU, a bilingual Thai and English dataset consisting of official documents such as vehicle registrations and utility bills, annotated for entity labelling and entity linking. We also introduce a noisy character feature extractor that captures lexical and spatial patterns to improve the model's robustness against noisy textual content. This feature is integrated with geometric, visual, and semantic features in the graph-based model. Experiments show that the noisy character feature outperforms the frequency histogram baseline, and with pretraining on a larger dataset, can help the semantical feature be more robust towards noise. Additionally, the ablation study shows the importance of the Graph Neural Networks on the task. Our results demonstrate a practical and effective solution for form understanding in noisy, real-world scenarios.

Other Abstract (Other language abstract of ETD)

ในงานวิจัยนี้เราได้นำเสนอแนวทางการสร้างระบบทำความเข้าใจเอกสารที่ทนทานต่อสัญญาณรบกวนและความไม่แน่นอนของรูปแบบเอกสารที่มักพบในบริบทของการใช้เอกสารจริง เริ่มด้วยการนำเสนอชุดข้อมูลใหม่ TONDFU ซึ่งประกอบด้วยเอกสารราชการที่เขียนด้วยทั้งภาษาไทยและอังกฤษ เช่น เล่มทะเบียนรถ และใบแจ้งค่าไฟฟ้าและน้ำประปา และทำการกำกับข้อมูลสำหรับโจทย์ การระบุประเภทหน่วยข้อความ (Entity Labeling) และ การเชื่อมโยงหน่วยข้อความ (Entity Linking) โดยแนวทางที่ทำให้ระบบทนต่อข้อมูลนำเข้าประกอบด้วย นิวรัลเน็ตเวิร์คแบบกราฟ, การเรียนรู้ถ่ายโอน, และฟีเจอร์ตัวอักษรสำหรับสัญญาณรบกวน ซึ่งใช้พร้อมกับฟีเจอร์เชิงเรขาคณิต, เชิงภาพ, และเชิงความหมาย โดยผลการทดลองแสดงให้เห็นว่าฟีเจอร์ดังกล่าวมีประสิทธิภาพเหนือกว่าฟีเจอร์แบบฮิสโตแกรมความถี่ของตัวอักษรเข้ารหัส (Encoded character frequency histogram) นอกจากนี้การรวมฟีเจอร์ที่ผู้วิจัยเสนอเข้ากับฟีเจอร์เชิงความหมายหลังจากทำการเรียนรู้แบบถ่ายโอนช่วยให้ระบบมีประสิทธิภาพมากขึ้น การศึกษาผลจากการตัดองค์ประกอบแสดงให้เห็นถึงความสำคัญของนิวรัลเน็ตเวิร์คแบบกราฟ และสุดท้าย ผลลัพธ์ชี้ให้เห็นว่าแนวทางที่เสนอมีประสิทธิภาพสามารถประยุกต์ใช้งานได้จริงในงานภาครัฐหรือธุรกิจ

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.