Chulalongkorn University Theses and Dissertations (Chula ETD)

วิธีการแบ่งนับแบบสมสัณฐานสำหรับการระบุผู้พูด

Other Title (Parallel Title in Other Language of ETD)

An approach of isomorphic quantization for speaker identification

Year (A.D.)

2003

Document Type

Thesis

First Advisor

อรรถสิทธิ์ สุรฤกษ์

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2003.1148

Abstract

การแบ่งนับแบบสมสัณฐานเป็นวิธีการลดปริมาณข้อมูลเวกเตอร์ลักษณะเฉพาะซึ่งได้จากการสกัดจากเสียงพูด โดยพิจารณาความคล้ายกันของรูปแบบเวกเตอร์ วิธีการนี้วางอยู่บนหลักการของการสร้างฟังก์ชันวัดการเปลี่ยนแปลงค่าภายในเวกเตอร์ในแต่ละมิติเพื่อให้ได้เวกเตอร์ใหม่ในรูปของเลขฐานสอง จากนั้นเวกเตอร์ใหม่ที่ได้จะถูกนำมาทำการแบ่งส่วนตามมิติและถูกจัดกลุ่มตามความเหมือนของเวกเตอร์ในกลุ่มนั้น เวกเตอร์ที่ซ้ำกันมากที่สุดหนึ่งชุดจะถูกนำมาเป็นตัวแทนของเวกเตอร์ทั้งหมดและถูกเก็บเป็นตัวแบบผู้พูด จากผลการทดลองแสดงให้เห็นว่าวิธีการนี้สามารถให้ความถูกต้อง เฉลี่ยในการระบุผู้พูดมากถึงร้อยละ 99.73 เมื่อทดสอบกับเสียงพูดต่อเนื่องความยาว 5 ถึง 8 วินาที นอกจากนั้นเรายังทำการเปรียบเทียบประสิทธิภาพกับวิธีการแบ่งนับแบบเวกเตอร์และวิธีการแบ่งนับแบบฐานสองด้วย

Other Abstract (Other language abstract of ETD)

Isomorphic quantization is a method for reducing amount of feature vectors by determining their similarity forms. The feature vectors are extracted from speech. This method is based on a function that measures internal changing of feature vectors to produce binary vectors. The binary vectors are partitioned and then clustered the same vectors into groups. A set of groups that have maximum frequency is chosen to generate a codebook instead of using all binary vectors. Experimental results show the effective accuracy in speaker identification especially in continuous speech length 5-8 seconds, the average accuracy is 99.73%. We also investigate its performance by comparing with vector quantization and binary quantization methods.

Share

COinS