Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
3D facial Thai speech animation generation for game development
Year (A.D.)
2024
Document Type
Independent Study
First Advisor
วิษณุ โคตรจรัส
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมซอฟต์แวร์
DOI
10.58837/CHULA.IS.2024.23
Abstract
โครงงานมหาบัณฑิตนี้จึงเสนอวิธีการสร้างแอนิเมชัน 3 มิติ ของใบหน้าขณะพูดภาษาไทยสำหรับใช้ในการพัฒนาเกม ในการสร้างแบบจำลองเพื่อทำนายการเคลื่อนไหวของใบหน้าขณะพูดภาษาไทย ได้ใช้ชุดข้อมูลออดิโอวิชวล TSynC-3miti: Audiovisual Speech Synthesis Database from Found Data ร่วมกับแนวคิดจาก งานวิจัย A Decision Tree Framework for Spatiotemporal Sequence Prediction ที่ได้เสนอวิธีการสำหรับการทำนายลำดับข้อมูลที่มีจำนวนมิติสูงและต่อเนื่อง โดยใช้เทคนิคการแบ่งย่อยด้วยหน้าต่างเลื่อนร่วมกับวิธีการรวมกลุ่มของต้นไม้ตัดสินใจ ซึ่งสามารถนำมาประยุกต์ใช้ในการสร้างแอนิเมชันสำหรับการพูดได้ ในการทำนายการเคลื่อนไหวของใบหน้าขณะพูดภาษาไทยในโครงงานมหาบัณฑิตนี้ จะใช้ข้อมูลนำเข้าเป็นลำดับของสัญลักษณ์โฟเนติก จากจึงต้องมีการเตรียมชุดข้อมูลใหม่จากชุดข้อมูลออิดิโอวิชวล TSynC-3miti จากนั้นนำชุดข้อมูลไปฝึกสอนโมเดล และพัฒนาเครื่องมือที่ใช้ในการสร้างแอนิเมชัน โดยเป็นรูปแบบของส่วนเสริมสำหรับใช้ในเกมเอนจิน Unreal Engine โดยรับอินพุตเป็นข้อความภาษาไทย และจะได้ค่าการเคลื่อนไหวใบหน้ามาอ้างอิงบนใบหน้าของตัวละครในแต่ละช่วงเวลา ผลลัพธ์ของการทำงานของส่วนเสริมนี้จะได้เป็นแอนิเมชัน 3 มิติของโมเดลตัวละคร MetaHuman ที่สามารถพูดภาษาไทยได้อย่างสมจริง โดยผลการทดสอบพบว่าแอนิเมชันมีความสมจริงจากมุมมองทั้งหน้าตรงและหน้าเอียง โดยมุมมองหน้าเอียงดูสมจริงมากกว่า และการออกเสียงแต่ละโฟเนติกมีความสมจริงเช่นกัน
Other Abstract (Other language abstract of ETD)
This master project proposed a method for creating 3D animations of faces speaking Thai for game development. For modeling the facial movements during Thai speech, the TSynC-3miti: Audiovisual Speech Synthesis Database from Found Data was used in conjunction with concepts from Taehwan Kim's research, "A Decision Tree Framework for Spatiotemporal Sequence Prediction". Kim's research suggested a method for predicting high-dimensional and continuous data sequences using a sliding window technique combined with decision tree aggregation, which was applicable to speech animation. For this master project, to predict facial movements during Thai speech, phonetic symbol sequences are used as input data, necessitating the preparation of a new dataset from the TSynC-3miti audiovisual dataset. This dataset was then used to train the model. A tool for creating animations was also developed. This tool, implemented as a plugin for the Unreal Engine game engine, takes Thai text as input and predicts the facial movements, which are then applied to a MetaHuman character model, resulting in a 3D animation of the character speaking Thai realistically. Testing results showed that the animations were realistic from both frontal and angled views, with the angled view appearing more realistic. The pronunciation of each phonetic symbol was also found to be realistic.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
มุสิกะประยูร, ภัทรานิษฐ์, "การสร้างแอนิเมชัน 3 มิติ ของใบหน้าขณะพูดภาษาไทยสําหรับใช้ในการพัฒนาเกม" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 11802.
https://digital.car.chula.ac.th/chulaetd/11802