Inteligibilidad del habla en avatares virtuales: comparación entre animación facial impulsada por audio y animación facial impulsada por audio y video

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Inteligibilidad del habla en avatares virtuales: comparación entre animación facial impulsada por audio y animación facial impulsada por audio y video

Autores: Cioffi, Federico; Masullo, Massimiliano; Pascale, Aniello; Maffei, Luigi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Inteligibilidad del habla en avatares virtuales: comparación entre animación facial impulsada por audio y animación facial impulsada por audio y video

Categoría

Artes

Subcategoría

Música

Palabras clave

Inteligibilidad del habla

Información auditiva

Expresiones faciales

Avatares virtuales

Tecnología MetaHuman

Animación facial

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones

La inteligibilidad del habla (SI) es crítica en la comunicación efectiva en diversos entornos, aunque a menudo se ve comprometida por condiciones acústicas adversas. En ambientes ruidosos, las señales visuales como los movimientos de los labios y las expresiones faciales, cuando son congruentes con la información auditiva, pueden mejorar significativamente la percepción del habla y reducir el esfuerzo cognitivo. En una difusión cada vez mayor de entornos virtuales, comunicarse a través de avatares virtuales se está volviendo cada vez más prevalente, lo que requiere una comprensión integral de estas dinámicas para garantizar interacciones efectivas. El presente estudio utilizó la tecnología MetaHuman de Unreal Engine para comparar cuatro metodologías utilizadas para crear animaciones faciales: MetaHuman Animator (MHA), MetaHuman LiveLink (MHLL), Audio-Driven MetaHuman (ADMH) y Synthetized Audio-Driven MetaHuman (SADMH). Se utilizaron treinta y seis pares de palabras del Test de Rima Diagnóstica (DRT) como estímulos de entrada para crear las animaciones y compararlas en términos de inteligibilidad. Además, para simular un ruido de fondo desafiante, las animaciones se mezclaron con un ruido de murmullos a una relación señal-ruido de -13 dB (A). Los participantes evaluaron un total de 144 animaciones faciales. Los resultados mostraron que la condición ADMH fue la más inteligible entre las metodologías utilizadas, probablemente debido a una mayor claridad y consistencia en las animaciones faciales generadas, al tiempo que se eliminaban distracciones como microexpresiones y variaciones naturales en la articulación humana.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro