Chulalongkorn University Theses and Dissertations (Chula ETD)
การค้นคืนข้ามภาษาสำหรับคำทับศัพท์ภาษาไทย/อังกฤษด้วยวิธีการนิวรอลเน็ตเวิร์ก แบบจำลองฮิดเด็นมาร์คอฟ และขั้นตอนวิธีเชิงพันธุกรรม
Other Title (Parallel Title in Other Language of ETD)
Thai/English cross-language transliterated word retrieval using neural networks, Hidden Markov Models, and genetic algorithms
Year (A.D.)
2004
Document Type
Thesis
First Advisor
บุญเสริม กิจศิริกุล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมคอมพิวเตอร์
DOI
10.58837/CHULA.THE.2004.1436
Abstract
วิทยานิพนธ์ฉบับนี้นำเสนอการการค้นคืนข้ามภาษาสำหรับคำทับศัพท์ภาษาไทย/อังกฤษโดยใช้วิธีการนิวรอลเน็ตเวิร์กและแบบจำลองฮิดเด็นมาร์คอฟในการเข้ารหัสคำ และใช้ขั้นตอนวิธีเชิงพันธุกรรม เพื่อเพิ่มความถูกต้องของการค้นคืน วิธีการที่นำเสนอช่วยให้สามารถค้นคืนคำทับศัพท์ข้ามภาษาได้โดยไม่ต้องอาศัยพจนานุกรม ในการค้นคืนข้ามภาษาโดยไม่อาศัยพจนานุกรมนั้นจำเป็นต้องใช้หลักการเข้ารหัสซึ่งเป็นสัญลักษณ์แทนเสียงอ่านของคำและประกอบด้วยรหัสเสียงของแต่ละตัวอักษรของคำมาเรียงต่อกัน ในการที่จะทราบว่าตัวอักษรที่กำลังสนใจในคำนั้นให้รหัสเสียงใดจำเป็นต้องอาศัยการพิจารณาตัวอักษรข้างเคียงด้วย ดังนั้นการเข้ารหัสคำสามารถจัดได้ว่าเป็นปัญหาการจำแนกอย่างหนึ่ง ด้วยเหตุนี้จึงได้นำวิธีการนิวรอลเน็ตเวิร์กและแบบจำลองฮิดเด็นมาร์คอฟมาใช้ในการเข้ารหัสคำ แต่เนื่องจากว่ารหัสคำของคำไหทยและอังกฤษที่มีเสียงอ่านตรงกัน อาจมีความแตกต่างกันบ้าง จึงได้ใช้ชั้นตอนวิธีเชิงพันธุกรรมเพื่อหาต้นทุนการแก้ไขอักขระที่ใช้ในเทคนิคการเปรียบเทียบแบบประมาณสำหรับการค้นคืนคำที่มีเสียงอ่านคล้ายกันมากที่สุด จากผลการทดลองด้วยวิธี K-fold cross validation พบว่าเมื่อใช้นิวรอลเน็ตเวิร์กร่วมกับขั้นตอนวิธีเชิงพันธุกรรมสามารถให้ผลการค้นคืน F1 ได้ประมาณ 90% และเมื่อใช้แบบจำลองฮิดเด็นมาร์คอฟกับขั้นตอนวิธีเชิงพันธุกรรมสามารถให้ผลการค้นคืน F1 ได้ประมาณ 80%
Other Abstract (Other language abstract of ETD)
This thesis presents Thai/English cross-language transliterated word retrieval by using neural networks and Hidden Markov Models for encoding words and using the genetic algorithm for improving the efficiency of the retrieval. The proposed method enables the transliterated word retrieval without using the dictionary. Without dictionary, the phonetic code is employed for cross-language retrieval. The phonetic code of a word represents the sound of the word and it consists of a sequence of phonetic codes of characters in the word. In order to determine the code of a particular character, it is necessary to consider its surrounding characters. Hence this problem can be identified as a classification problem. For this reason, neural networks and Hidden Markov Models are used in phonetic encoding. However, as the codes generated from a pair of corresponding Thai/English words are sometimes slightly different, the genetic algorithm is applied to determine the appropritate cost of character editing used in approximate string matching. The experimental results, using K-fold cross validation, show that the F1-measure of 90% can be obtained when using neural networks and the genetic algorithm, and of 80% when using Hidden Markov Models and the genetic algorithm.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
สุรบถโสภณ, ศิริพจน์, "การค้นคืนข้ามภาษาสำหรับคำทับศัพท์ภาษาไทย/อังกฤษด้วยวิธีการนิวรอลเน็ตเวิร์ก แบบจำลองฮิดเด็นมาร์คอฟ และขั้นตอนวิธีเชิงพันธุกรรม" (2004). Chulalongkorn University Theses and Dissertations (Chula ETD). 65527.
https://digital.car.chula.ac.th/chulaetd/65527