Chulalongkorn University Theses and Dissertations (Chula ETD)

การสร้างเครือข่ายคำไทยของมโนทัศน์พื้นฐานร่วมของเอนทิตีลำดับที่สอง ด้วยวิธีการแปลสองทาง : การศึกษาปัจจัยความหลากหลายของความหมายที่มีต่อความถูกต้องของการแปล

Other Title (Parallel Title in Other Language of ETD)

The Construction of Thai wordnet of 25nd order entity common base concepts using a bi-directional translation method : a study of the diversity of meanings affecting translational accuracy

Year (A.D.)

2008

Document Type

Thesis

First Advisor

วิโรจน์ อรุณมานะกุล

Second Advisor

กฤษณ์ โกสวัสดิ์

Faculty/College

Faculty of Arts (คณะอักษรศาสตร์)

Degree Name

อักษรศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

ภาษาศาสตร์

DOI

10.58837/CHULA.THE.2008.1927

Abstract

เครือข่ายคำถูกสร้างขึ้นเพื่อแก้ปัญหาการค้นหาคำศัพท์จากพจนานุกรมโดยทั่วไป ที่ไม่ได้ระบุคำศัพท์ที่มีความหมายใกล้เคียงกัน เพื่อเป็นทางเลือกในการใช้คำศัพท์ให้ถูกต้องตามสถานการณ์ รวมทั้งความสัมพันธ์ประเภทต่างๆ เพื่อให้ผู้ใช้ภาษาเข้าใจในคำศัพท์ได้ดียิ่งขึ้น และใช้เพื่อแก้ปัญหาในงานด้านต่างๆ โดยเฉพาะงานทางด้านการประมวลผลภาษาธรรมชาติ เช่น การแก้ปัญหาความกำกวมทางความหมาย ซึ่งโดยปกติแล้วจะต้องใช้คลังข้อมูลขนาดใหญ่ในการพิจารณาความหมายที่อาจเป็นไปได้ทั้งหมด หรือการแบ่งประเภทของบริบทโดยดูโครงสร้างความสัมพันธ์แบบคำลูกกลุ่ม (Hypernyms) ซึ่งเป็นความสัมพันธ์ประเภทหนึ่งที่รวมอยู่ในเครือข่ายคำ ดังนั้นจึงมีความพยายามสร้างเครือข่ายคำในภาษาต่างๆ ขึ้นมากมาย แนวทางการสร้างเครือข่ายคำไทย ที่ผู้วิจัยเลือกใช้คือแนวทางแบบขยาย (Expand approach) เป็นการสร้างเครือข่ายคำไทยที่สอดคล้องกับมโนทัศน์พื้นฐานร่วมภาษาอังกฤษ เนื่องจากมโนทัศน์พื้นฐานร่วมเหล่านี้ถูกสร้างขึ้นจากส่วนที่หลายๆ ภาษามีร่วมกันโดยใช้กลวิธีการแปลสองทาง จากนั้นนำผลลัพธ์ที่ได้ไปเปรียบเทียบกับ เครือข่ายคำไทยที่ผู้วิจัยสร้างขึ้นเองจากทรัพยากรทางภาษาและผู้เชี่ยวชาญทางภาษา ได้ผลลัพธ์ความถูกต้องของมิติคำศัพท์ 17.35% และความถูกต้องของมิติกลุ่มคำไวพจน์ 64.50% คำแปลไทยจากคำอังกฤษที่มีความหมายเดียว (Monosemic word) ได้ผลลัพธ์ที่มีความถูกต้อง 16.52% ต่ำกว่าคำแปลไทยจากคำอังกฤษที่มีคำหลายความหมาย (Polysemic word) ที่มีค่าความถูกต้อง 18.44% ในขณะที่รูปแบบการจับคู่กับคำแปลภาษาไทยรูปแบบต่างๆ ให้ผลลัพธ์ที่มีความแม่นยำเรียงจากความแม่นยำสูงสุดไปยังความถูกต้องต่ำสุด คือ รูปแบบการจับคู่แบบหนึ่งต่อหลาย (1:many) แบบหลายต่อหลาย (many:many) แบบหนึ่งต่อหนึ่ง (1:1) และแบบหลายต่อหนึ่ง (many:1) ตามลำดับ

Other Abstract (Other language abstract of ETD)

WordNet was built to resolve a problem of lexical searching by dictionaries which normally does not indicate the semantic relations such as synonyms, hyponyms, etc. which can help user to understand more in the language. Furthermore, WordNet can also resolve various problems in natural language processing (NLP) works such as sense disambiguation which traditionally needs a large lexicon in order to know all possible meanings; context classification, which uses Hypernyms, one kind of semantic relations including in WordNet. Therefore, there are many attempts to build WordNet in many languages. Our approach for building Thai WordNet is Expand Approach. This approach is to build Thai WordNet from English Common Base Concepts which are approved to be core concepts in most languages. Then, we compare the result with Thai WordNet that we have built manually by using various language resources and by consulting with language experts. The accuracy was 17.35% for word based and 64.50% for synset based. The accuracy of Thai synsets translated from English monosemic word was 16.52%, lower than ones from polysemic word which was 18.44%. By considering the relation between source word and target word, 1:many relation has the highest precision, followed by many:many, 1:1 and many:1, respectively.

Share

COinS