Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิเคราะห์แนวทางการเปรียบเทียบสมรรถนะของโปรแกรมแยกคำภาษาไทย

Other Title (Parallel Title in Other Language of ETD)

Analysis of guidelines for performance comparison of Thai word separation programs

Year (A.D.)

1997

Document Type

Thesis

First Advisor

ยรรยง เต็งอำนวย

Faculty/College

Graduate School (บัณฑิตวิทยาลัย)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.1997.794

Abstract

งานวิจัยนี้ได้ทำการวิเคราะห์ หาแนวทางในการเปรียบเทียบสมรรถนะของโปรแกรมและอัลกอริธึมตัดคำภาษาไทย โดยเริ่มจากการสังเคราะห์ตัวอย่างมาตรวัด ที่จะใช้ในการวัดและเปรียบเทียบประสิทธิภาพ ศึกษาคุณลักษณะเฉพาะของเอกสารภาษาไทย ที่มีผลต่อประสิทธิภาพของโปรแกรมตัดคำภาษาไทย รวบรวมโปรแกรมและอัลกอริธึมตัดคำภาษาไทย ที่ได้มีการพัฒนาและเผยแพร่ใช้งานในปัจจุบัน รวบรวมข้อมูลภาษาไทยที่ใช้อ้างอิง รวมไปถึงพจนานุกรมที่ใช้ในการตรวจสอบความถูกต้องของการตัดคำ จากนั้นจึงทำการพัฒนาวิธีการวัดประสิทธิภาพ และทำการวัดประสิทธิภาพ จากผลการวัดประสิทธิภาพพบว่าแบบเปรียบเทียบคำที่ยาวที่สุดจะตัดได้จำนวนคำที่ถูกต้องออกมามากที่สุด แบบการแก้ไขย้อนกลับจะได้คำผิดน้อยที่สุด แบบอาศัยความถี่ของการใช้คำจะได้อัตราความถูกต้องต่อจำนวนคำในพจนานุกรมสูงสุด แบบใช้พจนานุกรมลดความกำกวมสามารถจัดการกับคำกำกวมได้ดีที่สุดและแบบเปรียบเทียบคำที่สั้นที่สุดจะตัดออกมาได้จำนวนคำสูงสุด นอกจากนี้พบว่าโครงสร้างข้อมูลสำหรับพจนานุกรมที่ใช้ในโปรแกรมตัดคำมีผลมากในด้านความเร็ว โดยที่โครงสร้างข้อมูลแบบทรัยให้ความเร็วสูงสุดในปัจจุบัน

Other Abstract (Other language abstract of ETD)

In this thesis, the guidelines for performance comparison of Thai Words Separation Programs have been analyzed. The thesis begin from synthesis of example of performance indicators, study the characteristics of Thai documents that effect performance of the Thai Words Separation Programs. Then, collect Thai Words Separation Programs and algorithms that had been developed and announced to be used currently, collect the Thai reference data which include the reference dictionary to validate the accuracy of Thai Words Separation, and develop the measurement methodology. Finally, I do the performance measurement using the developed methodology. Experimental results show that the Longest Pattern Matching gives the most accurate words output while the Back Tracking Algorithm gives the least error words. Words Usage Frequency gives the highest valid words ratio per number of words in its dictionary. The usage of ambiguity dictionary gives the best ambiguous case resolution, whereas the Shortest Pattern Matching gives the highest number of words output. Additionally, it is found that the data structure for dictionary that used in Thai Words Separation Programs extremely effects in term of speed, meanwhile the Trie structure is the most popular method that has been used in the present due to its outperform speed.

Share

COinS