Un modelo de aprendizaje multitarea y multi-escala para el reconocimiento continuo de emociones dimensionales a partir de audio
Autores: Li, Xia; Lu, Guanming; Yan, Jingjie; Zhang, Zhengyan
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un modelo de aprendizaje multitarea y multi-escala para el reconocimiento continuo de emociones dimensionales a partir de audio
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Ventajas
Modelo emocional dimensional
Continuo
Modelo de aprendizaje multitarea multi-escala
Red de creencias profundas
Operaciones de agrupamiento temporal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Debido a las ventajas de muchos aspectos del modelo emocional dimensional, el reconocimiento continuo de emociones dimensionales a partir de audio ha atraído cada vez más atención en los últimos años. Las características y etiquetas emocionales dimensionales en diferentes escalas temporales tienen diferentes características y contienen información diferente. Para aprovechar al máximo las ventajas de las características y representaciones emocionales de múltiples escalas temporales, se propone en este documento un novedoso modelo de aprendizaje multi-escala y multi-tarea (MSMT). El modelo MSMT se construye mediante una red de creencias profundas (DBN) con solo una capa oculta. Los mismos parámetros de la capa oculta y los parámetros de la capa lineal son compartidos por todas las características. Se insertan múltiples operaciones de agrupación temporal entre la capa oculta y la capa lineal para obtener información en múltiples escalas temporales. El error cuadrático medio (MSE) de la tarea principal y la tarea secundaria se combinan para formar la función objetivo final. Se realizaron experimentos extensos en los conjuntos de datos RECOLA y SEMAINE para ilustrar la efectividad de nuestro modelo. Los resultados de los dos conjuntos muestran que incluso añadiendo una escala secundaria a la escala con un rendimiento óptimo de una sola tarea a una sola escala puede lograr mejoras significativas en el rendimiento.
Descripción
Debido a las ventajas de muchos aspectos del modelo emocional dimensional, el reconocimiento continuo de emociones dimensionales a partir de audio ha atraído cada vez más atención en los últimos años. Las características y etiquetas emocionales dimensionales en diferentes escalas temporales tienen diferentes características y contienen información diferente. Para aprovechar al máximo las ventajas de las características y representaciones emocionales de múltiples escalas temporales, se propone en este documento un novedoso modelo de aprendizaje multi-escala y multi-tarea (MSMT). El modelo MSMT se construye mediante una red de creencias profundas (DBN) con solo una capa oculta. Los mismos parámetros de la capa oculta y los parámetros de la capa lineal son compartidos por todas las características. Se insertan múltiples operaciones de agrupación temporal entre la capa oculta y la capa lineal para obtener información en múltiples escalas temporales. El error cuadrático medio (MSE) de la tarea principal y la tarea secundaria se combinan para formar la función objetivo final. Se realizaron experimentos extensos en los conjuntos de datos RECOLA y SEMAINE para ilustrar la efectividad de nuestro modelo. Los resultados de los dos conjuntos muestran que incluso añadiendo una escala secundaria a la escala con un rendimiento óptimo de una sola tarea a una sola escala puede lograr mejoras significativas en el rendimiento.