Mmateric: aprendizaje multi-tarea y multi-fusión para el reconocimiento de emociones de texto de audio en conversación

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mmateric: aprendizaje multi-tarea y multi-fusión para el reconocimiento de emociones de texto de audio en conversación

Autores: Liang, Xingwei; Zou, You; Zhuang, Xinnan; Yang, Jie; Niu, Taiyu; Xu, Ruifeng

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Mmateric: aprendizaje multi-tarea y multi-fusión para el reconocimiento de emociones de texto de audio en conversación

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento

Emociones

Conversación

Multimodal

Fusión

Método

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

El reconocimiento preciso de las emociones en las conversaciones ayuda a comprender las intenciones del hablante y facilita varios análisis en inteligencia artificial, especialmente en sistemas de interacción humano-computadora. Sin embargo, la mayoría de los métodos anteriores necesitan más capacidad para rastrear los diferentes estados emocionales de cada hablante en un diálogo. Para aliviar este dilema, proponemos un nuevo enfoque, Aprendizaje Multi-Tarea y Reconocimiento Emocional Multifusión AudioTexto en Conversación (MMATERIC) para el reconocimiento de emociones en la conversación. MMATERIC puede referirse y combinar los beneficios de dos tareas distintas: reconocimiento de emociones en texto y reconocimiento de emociones en habla, y producción de características multimodales fusionadas para reconocer las emociones de diferentes hablantes en el diálogo. En el núcleo de MATTERIC se encuentran tres módulos: un codificador con atención multimodal, una unidad de detección de emociones del hablante (SED-Unit) y un decodificador con Bi-LSTM de detección de emociones del hablante (SED-Bi-LSTM). Juntos, estos tres módulos modelan las emociones cambiantes de un hablante en un momento dado en una conversación. Mientras tanto, adoptamos múltiples estrategias de fusión en diferentes etapas, utilizando principalmente la fusión de modelos y la fusión de etapas de decisión para mejorar la precisión del modelo. Simultáneamente, nuestro marco multimodal permite que las características interactúen entre modalidades y permite flujos de adaptación potenciales de una modalidad a otra. Nuestros resultados experimentales en dos conjuntos de datos de referencia muestran que nuestro método propuesto es efectivo y supera a los métodos de referencia de última generación. La mejora del rendimiento de nuestro método se atribuye principalmente a la combinación de los tres módulos principales de MATTERIC y a los diferentes métodos de fusión que adoptamos en cada etapa.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro