Chulalongkorn University Theses and Dissertations (Chula ETD)

การรู้จำเสียงคำไทยหลายพยางค์แบบไม่ขึ้นกับผู้พูด โดยใช้เทคนิคแบบฟัซซีและนิวรอลเน็ตเวิร์ก

Other Title (Parallel Title in Other Language of ETD)

Speaker independent Thai polysyllabic word recognition using Fuzzy-technique and Neural Network

Year (A.D.)

1997

Document Type

Thesis

First Advisor

สมชาย จิตะพันธ์กุล

Second Advisor

สุดาพร ลักษณียนาวิน

Faculty/College

Graduate School (บัณฑิตวิทยาลัย)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมไฟฟ้า

DOI

10.58837/CHULA.THE.1997.917

Abstract

พัฒนาวิธีการรู้จำคำไทยหลายพยางค์แบบไม่ขึ้นต่อผู้พูด โดยใช้นิวรอลเน็ตเวอร์ก และใช้เทคนิคแบบฟัซซีในการปรับปรุงข้อมูลที่ใช้ในการฝึกฝน โดยแทนที่จะใช้ข้อมูลเข้าเป็นค่าสมาชิกภาพแบบฟัซซี ร่วมกับข้อมูลออกที่ต้องการแบบค่าสมาชิกภาพของแต่ละคำศัพท์ในการฝึกฝน ดังที่เคยใช้ในงานวิจัยหลายๆ งานที่ผ่านมา จะใช้ข้อมูลเข้าเป็นค่าสมาชิกภาพแบบฟัซซี ร่วมกับข้อมูลออกที่ต้องการแบบเลขฐานสอง ชุดคำศัพท์ประกอบด้วยคำศัพท์ตัวเลข 0-9 ชุดคำศัพท์หนึ่งพยางค์อื่นๆ ที่ไม่ใช่ตัวเลข 20 คำ ชุดคำศัพท์สองพยางค์ 20 คำ และชุดคำศัพท์สามพยางค์ 20 คำ โดยใช้วิธีการตรวจสอบจำนวนพยางค์ และการตรวจสอบเสียงวรรณยุกต์ ในการแบ่งกลุ่มคำศัพท์เบื้องต้น เพื่อลดจำนวนคำศัพท์ที่นิวรอลเน็ตเวอร์กหนึ่งๆ จะต้องรู้จำ ผู้พูดในชุดฝึกฝนมีจำนวน 50 คน และชุดทดสอบแบบไม่ขึ้นต่อผู้พูด 10 คน ผลการทดสอบได้อัตราการรู้จำแบบขึ้นต่อผู้พูด และแบบไม่ขึ้นต่อผู้พูดเฉลี่ย 94.4 และ 93.3 เปอร์เซ็นต์ ตามลำดับ ซึ่งสูงกว่ากรณีที่ใช้ข้อมูลเข้าเป็นค่าสัมประสิทธิ์การประมาณพันธะเชิงเส้น 3.3 และ 3.4 เปอร์เซ็นต์ ตามลำดับ

Other Abstract (Other language abstract of ETD)

To develop algorithms for a speaker independent Thai polysyllabic word recognition system using neural network with improvement training data by fuzzy technique. Instead of using fuzzy membership input data and class membership desired-output data during training as seen in several works, we use fuzzy membership input data and binary desired-output. Vocabulary set contains numeral figures 0-9, including other 20 single-syllabic words, 20 double-syllabic words and 20 triple-syllabic words. The syllable detection and tone detection algorithms are used for vocabulary pre-classification in order to decrease the number of vocabularies to be feeding to the neural network. With 50 training subjects and 10 independent test subjects, the average recognition rates of speaker dependent and speaker independent test are 94.4 and 93.3% respectively. There is an increase of 3.3 and 3.4% respectively compared to the recognition using only LPC input data.

Share

COinS