Chulalongkorn University Theses and Dissertations (Chula ETD)
การค้นคืนข้อมูลจากแฟ้มข้อมูลเสียงภาษาไทยด้วยข้อคำถามเสียง
Other Title (Parallel Title in Other Language of ETD)
Thai speech audio retrieval using voice query
Year (A.D.)
2006
Document Type
Thesis
First Advisor
โชติรัตน์ รัตนามหัทธนะ
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2006.1297
Abstract
ปัจจุบันข้อมูลสื่อประสมได้เพิ่มปริมาณขึ้นอย่างรวดเร็วและมีหลายรูปแบบ ทั้งที่อยู่ในรูปแฟ้มข้อมูลเสียง แฟ้มข้อมูลวีดิทัศน์ และแฟ้มข้อมูลภาพ ซึ่งแฟ้มข้อมูลสื่อประสมแต่ละแบบมีวิธีการค้นคืนหลากหลายวิธี งานวิจัยนี้สนใจและเลือกที่จะศึกษาวิธีการที่จะค้นคืนข้อมูลภายในแฟ้มข้อมูลเสียงภาษาไทยขนาดใหญ่ เช่น แฟ้มข้อมูลเสียงสื่อการเรียนการสอนอิเล็กทรอนิกส์ แฟ้มข้อมูลเสียงการอ่านหนังสือ เป็นต้น ปัจจุบันวิธีที่ได้รับความนิยมในการค้นคืนข้อมูลภายในแฟ้มข้อมูลเสียงมักใช้วิธีการสืบค้นด้วยคำหลัก ชื่อเรื่องหรือชื่อผู้แต่ง ซึ่งวิธีการดังกล่าวเป็นการค้นคืนด้วยการพิมพ์ หรือแม้แต่การพูดข้อคำถามเสียงเข้าไปเพื่อค้นหาจากรายการที่มีอยู่ โดยใช้กระบวนการรู้จำคำพูดในการค้นคืนข้อมูลเสียง แต่การใช้กระบวนการรู้จำคำพูดมีข้อจำกัดในเรื่องของเวลาที่ใช้ในการค้นคืน ซึ่งใช้เวลานานในกรณีที่แฟ้มฐานข้อมูลเสียงมีขนาดใหญ่ ดังนั้นงานวิจัยนี้จึงมุ่งเน้นในการค้นคืนข้อมูลเสียงจากแฟ้มข้อมูลเสียงภาษาไทยขนาดใหญ่ ซึ่งเวลาที่ใช้ในการทำงานเป็นเวลาที่ผู้ใช้ยอมรับได้ โดยมีความแม่นยำอยู่ในระดับดี และเนื่องจากภาษาไทยมีการผันวรรณยุกต์ 5 ระดับเสียงต่างกัน คือ สามัญ เอก โท ตรี และจัตวา ผู้เขียนจึงได้เลือกใช้เสียงวรรณยุกต์ในภาษาไทยนี้เข้ามาช่วยในการแยกคำ ซึ่งวรรณยุกต์ในแต่ละพยางค์ของคำก็จะให้ค่าความถี่มูลฐานต่างกัน และสามารถนำเอาคุณลักษณะพิเศษของเสียงในภาษาไทยนี้ มาใช้ในการค้นหาคำจากข้อคำถามเสียง โดยใช้วิธีวัดระยะทางแบบไดนามิกไทม์วอร์ปปิง เพื่อช่วยเพิ่มความแม่นยำในการเปรียบเทียบ สัญญานเสียงจากข้อคำถามกับเสียงในแฟ้มฐานข้อมูล จากการทดลองพบว่า วิธีดังกล่าวสามารถค้นคืนข้อมูลเสียงได้ถูกต้องคิดเป็น 59%
Other Abstract (Other language abstract of ETD)
Multimedia has increasingly become a prevalent resource in various formats including audio, video, and image archives. Among the varieties of retrieval, this thesis focuses on retrieval of speech audio collections, which include electronic lectures and audio books. Currently, most of audio retrieval systems are based on typed keyword/title/author search or based on voice queries where a speech recognition technique is generally used. However, the main limitation of the speech recognition technique is its slow retrieval time if the audio files are large. Therefore, this research focuses on finding an alternative to speech audio retrieval within the large files with satisfactory retrieval time and accuracy. This work uses Thai tones to help spotting the words because Thai language has 5 different tones, i.e., Low, Middle, High, Falling, and Rising. By exploiting this special property, Fundamental Frequency and Dynamic Time Warping techniques are used to improve performance and to speed up retrieval time. The preliminary experiment result gives a retrieval accuracy of 59%.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
โต๊ะลง, ภูเบศ, "การค้นคืนข้อมูลจากแฟ้มข้อมูลเสียงภาษาไทยด้วยข้อคำถามเสียง" (2006). Chulalongkorn University Theses and Dissertations (Chula ETD). 66226.
https://digital.car.chula.ac.th/chulaetd/66226