logo móvil
Contáctanos

Inteligibilidad del habla en avatares virtuales: comparación entre animación facial impulsada por audio y animación facial impulsada por audio y video

Autores: Cioffi, Federico; Masullo, Massimiliano; Pascale, Aniello; Maffei, Luigi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Inteligibilidad del habla en avatares virtuales: comparación entre animación facial impulsada por audio y animación facial impulsada por audio y video


Categoría

Artes

Subcategoría

Música

Palabras clave

Inteligibilidad del habla
Información auditiva
Expresiones faciales
Avatares virtuales
Tecnología MetaHuman
Animación facial

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
La inteligibilidad del habla (SI) es crítica en la comunicación efectiva en diversos entornos, aunque a menudo se ve comprometida por condiciones acústicas adversas. En ambientes ruidosos, las señales visuales como los movimientos de los labios y las expresiones faciales, cuando son congruentes con la información auditiva, pueden mejorar significativamente la percepción del habla y reducir el esfuerzo cognitivo. En una difusión cada vez mayor de entornos virtuales, comunicarse a través de avatares virtuales se está volviendo cada vez más prevalente, lo que requiere una comprensión integral de estas dinámicas para garantizar interacciones efectivas. El presente estudio utilizó la tecnología MetaHuman de Unreal Engine para comparar cuatro metodologías utilizadas para crear animaciones faciales: MetaHuman Animator (MHA), MetaHuman LiveLink (MHLL), Audio-Driven MetaHuman (ADMH) y Synthetized Audio-Driven MetaHuman (SADMH). Se utilizaron treinta y seis pares de palabras del Test de Rima Diagnóstica (DRT) como estímulos de entrada para crear las animaciones y compararlas en términos de inteligibilidad. Además, para simular un ruido de fondo desafiante, las animaciones se mezclaron con un ruido de murmullos a una relación señal-ruido de -13 dB (A). Los participantes evaluaron un total de 144 animaciones faciales. Los resultados mostraron que la condición ADMH fue la más inteligible entre las metodologías utilizadas, probablemente debido a una mayor claridad y consistencia en las animaciones faciales generadas, al tiempo que se eliminaban distracciones como microexpresiones y variaciones naturales en la articulación humana.

Otros recursos que podrían interesarte

Temas Virtualpro