Mmateric: aprendizaje multi-tarea y multi-fusión para el reconocimiento de emociones de texto de audio en conversación
Autores: Liang, Xingwei; Zou, You; Zhuang, Xinnan; Yang, Jie; Niu, Taiyu; Xu, Ruifeng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mmateric: aprendizaje multi-tarea y multi-fusión para el reconocimiento de emociones de texto de audio en conversación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento
Emociones
Conversación
Multimodal
Fusión
Método
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
El reconocimiento preciso de las emociones en las conversaciones ayuda a comprender las intenciones del hablante y facilita varios análisis en inteligencia artificial, especialmente en sistemas de interacción humano-computadora. Sin embargo, la mayoría de los métodos anteriores necesitan más capacidad para rastrear los diferentes estados emocionales de cada hablante en un diálogo. Para aliviar este dilema, proponemos un nuevo enfoque, Aprendizaje Multi-Tarea y Reconocimiento Emocional Multifusión AudioTexto en Conversación (MMATERIC) para el reconocimiento de emociones en la conversación. MMATERIC puede referirse y combinar los beneficios de dos tareas distintas: reconocimiento de emociones en texto y reconocimiento de emociones en habla, y producción de características multimodales fusionadas para reconocer las emociones de diferentes hablantes en el diálogo. En el núcleo de MATTERIC se encuentran tres módulos: un codificador con atención multimodal, una unidad de detección de emociones del hablante (SED-Unit) y un decodificador con Bi-LSTM de detección de emociones del hablante (SED-Bi-LSTM). Juntos, estos tres módulos modelan las emociones cambiantes de un hablante en un momento dado en una conversación. Mientras tanto, adoptamos múltiples estrategias de fusión en diferentes etapas, utilizando principalmente la fusión de modelos y la fusión de etapas de decisión para mejorar la precisión del modelo. Simultáneamente, nuestro marco multimodal permite que las características interactúen entre modalidades y permite flujos de adaptación potenciales de una modalidad a otra. Nuestros resultados experimentales en dos conjuntos de datos de referencia muestran que nuestro método propuesto es efectivo y supera a los métodos de referencia de última generación. La mejora del rendimiento de nuestro método se atribuye principalmente a la combinación de los tres módulos principales de MATTERIC y a los diferentes métodos de fusión que adoptamos en cada etapa.
Descripción
El reconocimiento preciso de las emociones en las conversaciones ayuda a comprender las intenciones del hablante y facilita varios análisis en inteligencia artificial, especialmente en sistemas de interacción humano-computadora. Sin embargo, la mayoría de los métodos anteriores necesitan más capacidad para rastrear los diferentes estados emocionales de cada hablante en un diálogo. Para aliviar este dilema, proponemos un nuevo enfoque, Aprendizaje Multi-Tarea y Reconocimiento Emocional Multifusión AudioTexto en Conversación (MMATERIC) para el reconocimiento de emociones en la conversación. MMATERIC puede referirse y combinar los beneficios de dos tareas distintas: reconocimiento de emociones en texto y reconocimiento de emociones en habla, y producción de características multimodales fusionadas para reconocer las emociones de diferentes hablantes en el diálogo. En el núcleo de MATTERIC se encuentran tres módulos: un codificador con atención multimodal, una unidad de detección de emociones del hablante (SED-Unit) y un decodificador con Bi-LSTM de detección de emociones del hablante (SED-Bi-LSTM). Juntos, estos tres módulos modelan las emociones cambiantes de un hablante en un momento dado en una conversación. Mientras tanto, adoptamos múltiples estrategias de fusión en diferentes etapas, utilizando principalmente la fusión de modelos y la fusión de etapas de decisión para mejorar la precisión del modelo. Simultáneamente, nuestro marco multimodal permite que las características interactúen entre modalidades y permite flujos de adaptación potenciales de una modalidad a otra. Nuestros resultados experimentales en dos conjuntos de datos de referencia muestran que nuestro método propuesto es efectivo y supera a los métodos de referencia de última generación. La mejora del rendimiento de nuestro método se atribuye principalmente a la combinación de los tres módulos principales de MATTERIC y a los diferentes métodos de fusión que adoptamos en cada etapa.