Inteligibilidad del habla en avatares virtuales: comparación entre animación facial impulsada por audio y animación facial impulsada por audio y video
Autores: Cioffi, Federico; Masullo, Massimiliano; Pascale, Aniello; Maffei, Luigi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Inteligibilidad del habla en avatares virtuales: comparación entre animación facial impulsada por audio y animación facial impulsada por audio y video
Categoría
Artes
Subcategoría
Música
Palabras clave
Inteligibilidad del habla
Información auditiva
Expresiones faciales
Avatares virtuales
Tecnología MetaHuman
Animación facial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
La inteligibilidad del habla (SI) es crítica en la comunicación efectiva en diversos entornos, aunque a menudo se ve comprometida por condiciones acústicas adversas. En ambientes ruidosos, las señales visuales como los movimientos de los labios y las expresiones faciales, cuando son congruentes con la información auditiva, pueden mejorar significativamente la percepción del habla y reducir el esfuerzo cognitivo. En una difusión cada vez mayor de entornos virtuales, comunicarse a través de avatares virtuales se está volviendo cada vez más prevalente, lo que requiere una comprensión integral de estas dinámicas para garantizar interacciones efectivas. El presente estudio utilizó la tecnología MetaHuman de Unreal Engine para comparar cuatro metodologías utilizadas para crear animaciones faciales: MetaHuman Animator (MHA), MetaHuman LiveLink (MHLL), Audio-Driven MetaHuman (ADMH) y Synthetized Audio-Driven MetaHuman (SADMH). Se utilizaron treinta y seis pares de palabras del Test de Rima Diagnóstica (DRT) como estímulos de entrada para crear las animaciones y compararlas en términos de inteligibilidad. Además, para simular un ruido de fondo desafiante, las animaciones se mezclaron con un ruido de murmullos a una relación señal-ruido de -13 dB (A). Los participantes evaluaron un total de 144 animaciones faciales. Los resultados mostraron que la condición ADMH fue la más inteligible entre las metodologías utilizadas, probablemente debido a una mayor claridad y consistencia en las animaciones faciales generadas, al tiempo que se eliminaban distracciones como microexpresiones y variaciones naturales en la articulación humana.
Descripción
La inteligibilidad del habla (SI) es crítica en la comunicación efectiva en diversos entornos, aunque a menudo se ve comprometida por condiciones acústicas adversas. En ambientes ruidosos, las señales visuales como los movimientos de los labios y las expresiones faciales, cuando son congruentes con la información auditiva, pueden mejorar significativamente la percepción del habla y reducir el esfuerzo cognitivo. En una difusión cada vez mayor de entornos virtuales, comunicarse a través de avatares virtuales se está volviendo cada vez más prevalente, lo que requiere una comprensión integral de estas dinámicas para garantizar interacciones efectivas. El presente estudio utilizó la tecnología MetaHuman de Unreal Engine para comparar cuatro metodologías utilizadas para crear animaciones faciales: MetaHuman Animator (MHA), MetaHuman LiveLink (MHLL), Audio-Driven MetaHuman (ADMH) y Synthetized Audio-Driven MetaHuman (SADMH). Se utilizaron treinta y seis pares de palabras del Test de Rima Diagnóstica (DRT) como estímulos de entrada para crear las animaciones y compararlas en términos de inteligibilidad. Además, para simular un ruido de fondo desafiante, las animaciones se mezclaron con un ruido de murmullos a una relación señal-ruido de -13 dB (A). Los participantes evaluaron un total de 144 animaciones faciales. Los resultados mostraron que la condición ADMH fue la más inteligible entre las metodologías utilizadas, probablemente debido a una mayor claridad y consistencia en las animaciones faciales generadas, al tiempo que se eliminaban distracciones como microexpresiones y variaciones naturales en la articulación humana.