Chulalongkorn University Theses and Dissertations (Chula ETD)

การรู้จำเสียงพูดภาษาไทยอย่างคงทนโดยใช้สัมประสิทธิ์เมลฟรีเคว็นซีเซปสตรอลของค่าอัตสหสัมพันธ์ของเสียงพูดที่มีสัญญาณรบกวน

Other Title (Parallel Title in Other Language of ETD)

Robust Thai speech recognition using MFCC of noisy speech autocorrelation

Year (A.D.)

2002

Document Type

Thesis

First Advisor

สมชาย จิตะพันธ์กุล

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมไฟฟ้า

DOI

10.58837/CHULA.THE.2002.1431

Abstract

วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์เพื่อนำเสนอการรู้จำเสียงพูดภาษาไทยอย่างคงทน การพัฒนาจะมุ่งความสนใจไปที่การหาค่าลักษณะสำคัญของสัญญาณเสียงพูดที่คงทนต่อสัญญาณรบกวนเกาส์เซียนขาวค่าเฉลี่ยศูนย์เพิ่มเข้ามา โดยใช้สัมประสิทธิ์เมลฟรีเคว็นซีเซปสตรอลของค่าอัตสหสัมพันธ์ของเสียงพูดซึ่งมีสัญญาณรบกวนเป็นสัญญาณเข้าในการหาค่าลักษณะสำคัญแทนสัญญาณเสียงพูด เนื่องจากมีความคงทนต่อสัญญาณรบกวนดังกล่าวมากกว่าตัวสัญญาณเสียงพูด กำหนดให้ระบบรู้จำเสียงพูดที่ใช้เป็นแบบไม่ขึ้นกับผู้พูด ใช้ระบบรู้จำเป็นแบบจำลองฮิดเดนมาร์คอฟ กลุ่มเสียงพูดคำโดดภาษาไทยที่ใช้ในการฝึกฝนและทดสอบจะแบ่งเป็น 5 กลุ่มตามเสียงวรรณยุกต์คือ สามัญ เอก โท ตรี และจัตวา การเปรียบเทียบอัตรารู้จำเฉลี่ยที่ได้จะเปรียบเทียบกับ อัตราการรู้จำเฉลี่ยที่ใช้สัมประสิทธิ์เมลฟรีเคว็นซีเซปสตรอลของเสียงพูดที่มีจำนวนอันดับเท่ากัน ผลการทดสอบปรากฏว่า ค่าสัมประสิทธิ์เมลฟรีเคว็นซีเซปสตรอลของค่าอัตสหสัมพันธ์ของเสียงพูด อันดับ 32 เมื่อใช้กับเสียงพูดกลุ่มเสียงวรรณยุกต์สามัญ เอก โท และตรี ที่มีค่ากำลังสัญญาณต่อสัญญาณรบกวนน้อยกว่า 25 เดซิเบล ลงไป ให้ผลอัตราการรู้จำเฉลี่ยที่ดีกว่าสัมประสิทธิ์เมลฟรีเคว็นซีเซปสตรอลของเสียงพูดที่มีจำนวนอันดับเท่ากัน เฉลี่ยคิดเป็นร้อยละ 12.60 และให้ผลอัตราการรู้จำเฉลี่ยที่ดีกว่าในเสียงพูดกลุ่มเสียงวรรณยุกต์จัตวา เมื่อเลือกใช้จำนวนอันดับเป็น 16 ที่มีค่ากำลังสัญญาณต่อสัญญาณรบกวนในช่วงตั้งแต่ 5 เดซิเบล ไปจนถึง 20 เดซิเบล เฉลี่ยคิดเป็นร้อยละ 3.99

Other Abstract (Other language abstract of ETD)

This thesis has the objective to develop a robust Thai speech recognition using robust speech feature with Hidden Markov Model. The system is an isolated word speaker independent system. Mel frequency cepstral coefficient of noisy speech autocorrelation is proposed to improved the robustness of the system to additive zero mean white gaussian noise. Thai isolated words are categorized to 5 classes according to their tones, mid tone, low tone, falling tone, high tone, and rising tone. The average recognition rate using MFCC of noisy speech autocorrelation is compared with MFCC of noisy speech in the same order. The experiment results show that the average recognition rate of MFCC of noisy speech autocorrelation order 32 is 12.60 percent better than MFCC of noisy speech at SNR < 25 dB for the mid tone, low tone, falling tone, and high tone. In the rising tone, the average recognition rate of MFCC of noisy speech autocorrelation order 16 is 3.99 percent better than MFCC of noisy speech between 5dB<=SNR<=20dB.

Share

COinS