Chulalongkorn University Theses and Dissertations (Chula ETD)

Background-noise independent sound recognition using imagerial spectrogram patterns

Other Title (Parallel Title in Other Language of ETD)

การรู้จำเสียงที่ไม่ขึ้นกับเสียงรบกวนพื้นหลังโดยใช้แบบรูปสเปกโทรแกรมเชิงภาพ

Year (A.D.)

2011

Document Type

Thesis

First Advisor

Chidchanok Lursinsap

Second Advisor

Thanapant Raicharoen

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Degree Name

Doctor of Philosophy

Degree Level

Doctoral Degree

Degree Discipline

Computer Science

DOI

10.58837/CHULA.THE.2011.1083

Abstract

Audio recognition is defined as the task of recognizing a particular piece of audio (could be music, ring-tone, speech and singing as well, from a given sample set of audio tracks. The field of audio recognition tries to emulate this behavior by using concepts from Biological modeling, signal processing theory and pattern recognition theory. Several techniques have been proposed to solve the problem of audio recognition. Most of the proposed methods are divided into two processing steps: feature extraction and classification. This research proposes a Background Noise Independence Sound Recognition algorithm that is able to automatically recognize a piece of audio with background by using the concept of spectrogram pattern matching. Each signal is analyzed and generated to its spectrogram that is used to train data for the classifier. Several classification functions are used, such as feed-forward neural network and k-Nearest Neighbor. This research applies a concept of matching of spectrogram pattern with various audio problem singing voice recognition and the environment sound recognition.

Other Abstract (Other language abstract of ETD)

ในการรู้จำเสียงนั้นหมายถึงการรู้จำและจำแนกเสียงประเภทต่างๆ รวมไปถึงเสียงเพลง เสียงร้องนองนักร้องหรือเสียงเรียกสายเป็นต้น โดยในการรู้จำเสียงนั้นมีงานวิจัยที่เกี่ยวข้องอยู่ด้วยกัน 2 ส่วน คือการประมวลผลสัญญาณและการรู้จำ ในปัจจุบันได้มีการประยุกต์ใช้เทคนิคหลายๆ แบบเข้ามาช่วยในการแก้ปัญหาการรู้จำเสียงประเภทต่างๆมากมาย โดยทั่วไปนั้นประกอบไปด้วย 2 ขั้นตอนวิธีคือการดึงแยกคุณลักษณะและการจำแนกประเภทในงานวิจัยนี้เราได้นำเสนอกระบวนการรู้จำเสียงที่ไม่ขึ้นกับเสียงรบกวนพื้นหลังโดยใช้การเทียบแบบรูปสเปกโทรแกรมเชิงโครงข่ายประสาทเทียม โดยเราได้นำเอาระเบียบขั้นตอนวิธีดังกล่าวมาแก้ปัญหาการรู้จำเสียงประเภทต่างๆ ที่มีเสียงรบกวนพื้นหลังสูง ในขั้นตอนแรกนั้นเราทำการแปลงสัญญาณเสียงให้รู้ในรูปแบบสเปกโทรแกรมในขั้นตอนของการดึงแยกคุณลักษณะและในขั้นตอนของการจำแนกประเภท เราได้ใช้เครือข่ายประสาทเทียมและวิธีค้นหาสมาชิกที่ใกล้ที่สุด ในงานวิจัยนี้เราได้ประยุกต์เทคนิคดังกล่าวกับปัญหา การรู้จำคำร้องในเพลงที่มีเสียงดนตรีเป็นพื้นหลังและปัญหาการรู้จำเสียงสภาวะแวดล้อมในสิ่งแวดล้อมประเภทต่างๆ

Share

COinS