Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
ระบบทําความเข้าใจเอกสารแบบฟอร์มแบบทนทานต่อข้อมูลนําเข้า ด้วยนิวรัลเน็ตเวิร์คแบบกราฟ
Year (A.D.)
2024
Document Type
Thesis
First Advisor
Thanarat Chalidabhongse
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Master of Engineering
Degree Level
Master's Degree
Degree Discipline
Computer Engineering
DOI
10.58837/CHULA.THE.2024.1059
Abstract
In this work, we address the challenge of form understanding in real-world documents affected by OCR noise and layout uncertainty. We introduce TONDFU, a bilingual Thai and English dataset consisting of official documents such as vehicle registrations and utility bills, annotated for entity labelling and entity linking. We also introduce a noisy character feature extractor that captures lexical and spatial patterns to improve the model's robustness against noisy textual content. This feature is integrated with geometric, visual, and semantic features in the graph-based model. Experiments show that the noisy character feature outperforms the frequency histogram baseline, and with pretraining on a larger dataset, can help the semantical feature be more robust towards noise. Additionally, the ablation study shows the importance of the Graph Neural Networks on the task. Our results demonstrate a practical and effective solution for form understanding in noisy, real-world scenarios.
Other Abstract (Other language abstract of ETD)
ในงานวิจัยนี้เราได้นำเสนอแนวทางการสร้างระบบทำความเข้าใจเอกสารที่ทนทานต่อสัญญาณรบกวนและความไม่แน่นอนของรูปแบบเอกสารที่มักพบในบริบทของการใช้เอกสารจริง เริ่มด้วยการนำเสนอชุดข้อมูลใหม่ TONDFU ซึ่งประกอบด้วยเอกสารราชการที่เขียนด้วยทั้งภาษาไทยและอังกฤษ เช่น เล่มทะเบียนรถ และใบแจ้งค่าไฟฟ้าและน้ำประปา และทำการกำกับข้อมูลสำหรับโจทย์ การระบุประเภทหน่วยข้อความ (Entity Labeling) และ การเชื่อมโยงหน่วยข้อความ (Entity Linking) โดยแนวทางที่ทำให้ระบบทนต่อข้อมูลนำเข้าประกอบด้วย นิวรัลเน็ตเวิร์คแบบกราฟ, การเรียนรู้ถ่ายโอน, และฟีเจอร์ตัวอักษรสำหรับสัญญาณรบกวน ซึ่งใช้พร้อมกับฟีเจอร์เชิงเรขาคณิต, เชิงภาพ, และเชิงความหมาย โดยผลการทดลองแสดงให้เห็นว่าฟีเจอร์ดังกล่าวมีประสิทธิภาพเหนือกว่าฟีเจอร์แบบฮิสโตแกรมความถี่ของตัวอักษรเข้ารหัส (Encoded character frequency histogram) นอกจากนี้การรวมฟีเจอร์ที่ผู้วิจัยเสนอเข้ากับฟีเจอร์เชิงความหมายหลังจากทำการเรียนรู้แบบถ่ายโอนช่วยให้ระบบมีประสิทธิภาพมากขึ้น การศึกษาผลจากการตัดองค์ประกอบแสดงให้เห็นถึงความสำคัญของนิวรัลเน็ตเวิร์คแบบกราฟ และสุดท้าย ผลลัพธ์ชี้ให้เห็นว่าแนวทางที่เสนอมีประสิทธิภาพสามารถประยุกต์ใช้งานได้จริงในงานภาครัฐหรือธุรกิจ
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Chuangchaichatchavarn, Chavin, "A robust form understanding system using graph-based neural network" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 74026.
https://digital.car.chula.ac.th/chulaetd/74026