Una arquitectura de red neuronal para el reconocimiento de emociones audiovisuales en niños
Autores: Matveev, Anton; Matveev, Yuri; Frolova, Olga; Nikolaev, Aleksandr; Lyakso, Elena
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Una arquitectura de red neuronal para el reconocimiento de emociones audiovisuales en niños
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Detectando
Comprendiendo
Emociones
Audiovisuales
Niños
Red neuronal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Detectar y comprender las emociones son críticos para nuestras actividades diarias. A medida que los sistemas de reconocimiento de emociones (ER) se desarrollan, comenzamos a analizar casos más difíciles que simplemente el habla audiovisual de adultos actuados. En este trabajo, investigamos la clasificación automática del habla emocional audiovisual de niños, lo cual presenta varios desafíos, incluida la falta de conjuntos de datos anotados disponibles públicamente y el bajo rendimiento de los sistemas de ER audiovisual más avanzados. En este documento, presentamos un nuevo corpus de habla emocional audiovisual de niños que recopilamos. Luego, proponemos una solución de red neuronal que mejora la utilización de las relaciones temporales entre las modalidades de audio y video en la fusión cruzada para el reconocimiento de emociones audiovisuales en niños. Seleccionamos una arquitectura de red neuronal de última generación como base y presentamos varias modificaciones centradas en un aprendizaje más profundo de las relaciones temporales cruzadas modales utilizando atención. Al realizar experimentos con nuestro enfoque propuesto y el modelo base seleccionado, observamos una mejora relativa en el rendimiento del 2%. Finalmente, concluimos que enfocarse más en las relaciones temporales cruzadas modales puede ser beneficioso para construir sistemas de ER para comunicaciones máquina-niño y entornos donde profesionales calificados trabajan con niños.
Descripción
Detectar y comprender las emociones son críticos para nuestras actividades diarias. A medida que los sistemas de reconocimiento de emociones (ER) se desarrollan, comenzamos a analizar casos más difíciles que simplemente el habla audiovisual de adultos actuados. En este trabajo, investigamos la clasificación automática del habla emocional audiovisual de niños, lo cual presenta varios desafíos, incluida la falta de conjuntos de datos anotados disponibles públicamente y el bajo rendimiento de los sistemas de ER audiovisual más avanzados. En este documento, presentamos un nuevo corpus de habla emocional audiovisual de niños que recopilamos. Luego, proponemos una solución de red neuronal que mejora la utilización de las relaciones temporales entre las modalidades de audio y video en la fusión cruzada para el reconocimiento de emociones audiovisuales en niños. Seleccionamos una arquitectura de red neuronal de última generación como base y presentamos varias modificaciones centradas en un aprendizaje más profundo de las relaciones temporales cruzadas modales utilizando atención. Al realizar experimentos con nuestro enfoque propuesto y el modelo base seleccionado, observamos una mejora relativa en el rendimiento del 2%. Finalmente, concluimos que enfocarse más en las relaciones temporales cruzadas modales puede ser beneficioso para construir sistemas de ER para comunicaciones máquina-niño y entornos donde profesionales calificados trabajan con niños.