Animación Facial Impulsada por Audio con Aprendizaje Profundo: Una Encuesta
Autores: Jiang, Diqiong; Chang, Jian; You, Lihua; Bian, Shaojun; Kosk, Robert; Maguire, Greg
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Animación Facial Impulsada por Audio con Aprendizaje Profundo: Una Encuesta
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Impulsado por audio
Animación facial
Técnicas de aprendizaje profundo
Mallas faciales en 3D
Métricas de evaluación
Modelos personalizados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La animación facial impulsada por audio es un campo en rápida evolución que tiene como objetivo generar expresiones faciales realistas y movimientos de labios sincronizados con una entrada de audio dada. Esta encuesta proporciona una revisión completa de las técnicas de aprendizaje profundo aplicadas a la animación facial impulsada por audio, con un enfoque tanto en la animación de imágenes faciales como en la animación de mallas faciales impulsadas por audio. Estos enfoques emplean aprendizaje profundo para mapear entradas de audio directamente sobre mallas faciales en 3D o imágenes en 2D, lo que permite la creación de animaciones altamente realistas y sincronizadas. Esta encuesta también explora métricas de evaluación, conjuntos de datos disponibles y los desafíos que permanecen, como el desentrelazado de la sincronización de labios y emociones, la generalización entre hablantes y las limitaciones de los conjuntos de datos. Por último, discutimos direcciones futuras, incluyendo la integración multimodal, modelos personalizados y la modificación de atributos faciales en animaciones, todos los cuales son críticos para el desarrollo y aplicación continuos de esta tecnología.
Descripción
La animación facial impulsada por audio es un campo en rápida evolución que tiene como objetivo generar expresiones faciales realistas y movimientos de labios sincronizados con una entrada de audio dada. Esta encuesta proporciona una revisión completa de las técnicas de aprendizaje profundo aplicadas a la animación facial impulsada por audio, con un enfoque tanto en la animación de imágenes faciales como en la animación de mallas faciales impulsadas por audio. Estos enfoques emplean aprendizaje profundo para mapear entradas de audio directamente sobre mallas faciales en 3D o imágenes en 2D, lo que permite la creación de animaciones altamente realistas y sincronizadas. Esta encuesta también explora métricas de evaluación, conjuntos de datos disponibles y los desafíos que permanecen, como el desentrelazado de la sincronización de labios y emociones, la generalización entre hablantes y las limitaciones de los conjuntos de datos. Por último, discutimos direcciones futuras, incluyendo la integración multimodal, modelos personalizados y la modificación de atributos faciales en animaciones, todos los cuales son críticos para el desarrollo y aplicación continuos de esta tecnología.