Chulalongkorn University Theses and Dissertations (Chula ETD)
การรู้จำชื่อเฉพาะภาษาไทย : การศึกษาชื่อบุคคล สถานที่ และองค์กร
Other Title (Parallel Title in Other Language of ETD)
Thai named entity recognition : a study of person location and organization names
Year (A.D.)
2010
Document Type
Thesis
First Advisor
วิโรจน์ อรุณมานะกุล
Faculty/College
Faculty of Arts (คณะอักษรศาสตร์)
Degree Name
อักษรศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
ภาษาศาสตร์
DOI
10.58837/CHULA.THE.2010.2132
Abstract
ศึกษาวิเคราะห์รูปแบบและโครงสร้างของชื่อบุคคล สถานที่ และองค์กร งานวิจัยนี้ใช้คลังข้อมูลขนาด 80,513 คำ เก็บข้อมูลข่าวภาษาไทยจากคลังข้อมูลภาษาไทยแห่งชาติ ประกอบด้วยชื่อบุคคล 762 ชื่อ ชื่อสถานที่ 774 ชื่อ และชื่อองค์กร 1,418 ชื่อ รูปแบบและโครงสร้างของชื่อบุคคลส่วนใหญ่ประกอบด้วยชื่อและนามสกุล (66.54%) ตามด้วยชื่อเพียงอย่างเดียว (33.46%) รูปแบบและโครงสร้างของชื่อสถานที่และชื่อองค์กรมีความซับซ้อนกว่าชื่อบุคคล โครงสร้างของชื่อสถานที่ที่ใช้มากที่สุด ได้แก่ ชื่อสถานที่ที่เกิดจากคำประกอบกันในโครงสร้างความสัมพันธ์แบบชั้นเดียว (50%) และชื่อสถานที่แบบคำเดี่ยว (29.93%) ตามลำดับ โครงสร้างของชื่อองค์กรที่พบมากที่สุด 2 แบบ ได้แก่ ชื่อองค์กรที่เกิดจากคำหลายคำประกอบกันในโครงสร้างความสัมพันธ์แบบหลายชั้นและชั้นเดียวตามลำดับ (28% และ 22.59%) เมื่อมีการใช้ชื่อเฉพาะในบริบทต่อเนื่อง พบว่าชื่อเฉพาะ 34.22% ไม่มีการเปลี่ยนรูป ในขณะที่ 65.78% มีการเปลี่ยนรูปไป การเปลี่ยนรูปที่พบ ได้แก่ การลดองค์ประกอบและการใช้อักษรย่อ คิดเป็น 58.36% และ 33.45% ตามลำดับ ผลการศึกษาการอ้างข้ามประเภท พบการใช้ชื่อองค์กรอ้างถึงสถานที่ 30.93% และชื่อสถานที่อ้างถึงองค์กร 69.07% โดยคำบุพบทและคำกริยาที่ปรากฏในตำแหน่งหน้าหลังของชื่อเฉพาะแบบอ้างข้ามประเภท ไม่มีน้ำหนักในการบ่งชี้การอ้างข้ามประเภท เนื่องจากมีการปรากฏร่วมกับคำอื่นๆ ในคลังข้อมูลเป็นจำนวนมากกว่า
Other Abstract (Other language abstract of ETD)
To analyze patterns and structures of person, location and organization names. A corpus of 80,513 words collected from Thai news in Thai National Corpus is used in this study, in which 762 person names, 774 location names, and 1,418 organization names are analyzed. The most frequently used pattern and structure of person names is composed of first name and last name (66.54%) followed by the use of first name only (33.46%). Patterns and structures of location and organization names are more complex than those of person names. For location names, the most frequently used forms are those composed of multi-words forming into a single level hierarchical structure (50%) followed by the use of a single word (29.93%). For organization names, the top first and second forms are multi-words forming into a multi-level hierarchical and a single structure respectively (28% and 22.59%). When the same named entities are used continuously in the texts, it is found that 34.22% of named entities are continued with the same form, while 65.78% are changed. Within those changed forms, names reduction and abbreviation are accounted for 58.36% and 33.45% respectively. For names used in cross-referencing, organization names referring to location were found 30.93% and the location names referring to organization were found 69.07%. Using only prepositions and verbs on the left and the right of these cross-referencing names is not sufficient for identifying these names because those context words co-occur more often with other words in the corpus.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
กาลันสีมา, ศศิวิมล, "การรู้จำชื่อเฉพาะภาษาไทย : การศึกษาชื่อบุคคล สถานที่ และองค์กร" (2010). Chulalongkorn University Theses and Dissertations (Chula ETD). 25387.
https://digital.car.chula.ac.th/chulaetd/25387