Chulalongkorn University Theses and Dissertations (Chula ETD)

Thai LIP-SYNC: Thai speech driven lip animation

Other Title (Parallel Title in Other Language of ETD)

THAI LIP-SYNC: การสร้างภาพเคลื่อนไหวริมฝีปากตามเสียงพูดภาษา

Year (A.D.)

2011

Document Type

Thesis

First Advisor

Pizzanu Kanongchaiyos

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

Master of Engineering

Degree Level

Master's Degree

Degree Discipline

Computer Engineering

DOI

10.58837/CHULA.THE.2011.1816

Abstract

The animation industry is growing drastically. This results in increasing demand for better performance and reduction of process time and cost. One of the most important processes is lip synchronization. Generally the lip synchronization in character animation is done in the animation development process. In this research, we consider the problem of making lip movement for an animated talking character. We focus on to reducing the cost and workload in the animation development process, and apply this technique for use with Thai speech. The main idea is to extract and capture a viseme from the video of a human talking and the phonemic scripts inside this video. First, this approach starts with separating the human talking video into two parts that contains the speech and frame sequence, then uses speech combined with phonemic script to extract time-stamp of each phoneme by using force-alignment techniques; next, we create a visyllable database by mapping an end time of each selected phoneme to an image; then, we capture an interested position from the image to make a visyllable database; after that, we generate a talking head animation video by synchronizing a time-stamped of each phoneme to concatenated visemes. The output result of this research is the animation model that the animated talking character can move synchronously with the speech. The experiment reported, indicating good accuracy of the synchronized lip movement with the speech, compared to the artist-animated talking character.

Other Abstract (Other language abstract of ETD)

อุตสาหกรรมการสร้างแอนิเมชันมีได้รับความนิยมและมีการเติบโตไปอย่างมาก ซึ่งส่งผลให้ความต้องการที่จะเพิ่มประสิทธิภาพในการสร้างแอนิเมชันมีมากขึ้นโดยความต้องการที่จะลดระยะเวลาในการสร้างแอนิเมชันและลดภาระค่าใช้จ่ายในการสร้าง หนึ่งในขั้นตอนที่สำคัญที่สุดขั้นตอนหนึ่งคือการสร้างการเคลื่อนไหวริมฝีปากตามเสียงพูดให้กับตัวละครแอนิเมชัน โดยทั่วไปแล้วการสร้างภาพเคลื่อนไหวให้กับตัวละครแอนิเมชันจะกระทำในขั้นตอนสร้างการเคลื่อนไหวให้กับตัวละคร ในวิทยานิพนธ์นี้เราพิจารณาปัญหาของการสร้างการเคลื่อนไหวของริมฝีปากตามเสียงพูดของตัวละครเป็นหลัก จุดมุ่งหมายของวิทยานิพนธ์นี้คือการลดค่าใช้จ่ายและลดระยะเวลาในการสร้างการเคลื่อนไหวให้กับตัวละครแอนิเมชันที่พูดด้วยเสียงในภาษาไทย แนวคิดหลักของวิทยานิพนธ์คือการวิเคราะห์และระบุระยะเวลาของแต่ละหน่วยเสียงในการพูดของตัวละครและการเก็บข้อมูลการเคลื่อนไหวของริมฝีปากจากวิดีโอการพูดของมนุษย์ โดยขั้นตอนในการทำงานจะเริ่มต้นด้วยการแบ่งวิดีโอที่พูดด้วยมนุษย์ออกเป็นสองส่วนส่วนแรกคือส่วนที่มีการพูด โดยจะนำคำพูดรวมกับลำดับการพูดในแต่ละหน่วยเสียง เพื่อระบุระยะเวลาเริ่มต้นและสิ้นสุดของแต่ละหน่วยเสียงโดยใช้เทคนิคการระบุระยะเวลาหน่วยเสียง (Force Alignment) ซึ่งจะนำไปสร้างฐานข้อมูลการเคลื่อนไหวของริมฝีปากในแต่ละหน่วยเสียง (Visyllable Database) โดยการจับคู่การเคลื่อนไหวกับหน่วยเสียงนี้ทำได้โดยการนำข้อมูลเวลาเริ่มต้นของแต่ละหน่วยเสียงมาระบุภาพในวีดีโอซึ่งจะนำมาประกอบกับตำแหน่งที่สนใจบนใบหน้ามนุษย์และบันทึกตำแหน่งเป็นฐานข้อมูลการเคลื่อนไหวของริมฝีปาก จากนั้นจะสร้างส่วนหัวของตัวละครแอนิเมชันเป็นวิดีโอภาพเคลื่อนไหวได้โดยการนำข้อมูลระยะเวลาในการพูดของแต่ละหน่วยเสียงประกอบกับฐานข้อมูลในการเคลื่อนไหวของแต่ละหน่วยเสียง ซึ่งจากการทดลองและวิเคราะห์ผลการทดลองจะสามารถบ่งบอกถึงความถูกต้องของการเคลื่อนไหวได้ตรงกับคำพูดเมื่อเทียบเคียงกับภาพเคลื่อนไหวที่สร้างโดยศิลปิน

Share

COinS