Mm-emor: reconocimiento de emociones multimodal en redes sociales utilizando redes de aprendizaje profundo concatenadas
Autores: Adel, Omar; Fathalla, Karma M.; Abo ElFarag, Ahmed
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mm-emor: reconocimiento de emociones multimodal en redes sociales utilizando redes de aprendizaje profundo concatenadas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Reconocimiento de emociones
Inteligencia artificial
Interacción humano-computadora
Enfoques impulsados por IA multimodal
MM-EMOR
Características del espectrograma Mel
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 48
Citaciones: Sin citaciones
El reconocimiento de emociones es crucial en la inteligencia artificial, especialmente en el ámbito de la interacción humano-computadora. La capacidad de discernir e interpretar con precisión las emociones desempeña un papel crítico en ayudar a las máquinas a descifrar eficazmente las intenciones subyacentes de los usuarios, lo que permite un proceso de interacción más fluido que se traduce inevitablemente en una experiencia de usuario mejorada. El aumento reciente en el uso de redes sociales, así como la disponibilidad de una inmensa cantidad de datos no estructurados, ha resultado en una demanda significativa para la implementación de sistemas automatizados de reconocimiento de emociones. Las técnicas de inteligencia artificial (IA) han surgido como una solución poderosa a esta preocupación apremiante en este contexto. En particular, la incorporación de enfoques impulsados por IA multimodales para el reconocimiento de emociones ha demostrado ser beneficiosa para capturar la intrincada interacción de diversas señales de expresión humana que se manifiestan en múltiples modalidades. El estudio actual tiene como objetivo desarrollar un sistema efectivo de reconocimiento de emociones multimodal conocido como MM-EMOR para mejorar la eficacia de los esfuerzos de reconocimiento de emociones centrados en las modalidades de audio y texto. El uso de características de espectrograma Mel, características de cromagrama y la Red Neuronal Convolucional (CNN) Mobilenet para procesar datos de audio son fundamentales para el funcionamiento de este sistema, mientras que un modelo Roberta basado en atención atiende a la modalidad de texto. La metodología de este estudio se basa en una evaluación exhaustiva de este enfoque en tres conjuntos de datos diferentes. Notablemente, los hallazgos empíricos muestran que MM-EMOR supera a modelos competidores en los mismos conjuntos de datos. Este aumento en el rendimiento es notable, con ganancias de precisión de un impresionante 7% en un conjunto de datos y un sustancial 8% en otro. Lo más significativo, el aumento observado en la precisión para el último conjunto de datos fue asombroso, con un 18%.
Descripción
El reconocimiento de emociones es crucial en la inteligencia artificial, especialmente en el ámbito de la interacción humano-computadora. La capacidad de discernir e interpretar con precisión las emociones desempeña un papel crítico en ayudar a las máquinas a descifrar eficazmente las intenciones subyacentes de los usuarios, lo que permite un proceso de interacción más fluido que se traduce inevitablemente en una experiencia de usuario mejorada. El aumento reciente en el uso de redes sociales, así como la disponibilidad de una inmensa cantidad de datos no estructurados, ha resultado en una demanda significativa para la implementación de sistemas automatizados de reconocimiento de emociones. Las técnicas de inteligencia artificial (IA) han surgido como una solución poderosa a esta preocupación apremiante en este contexto. En particular, la incorporación de enfoques impulsados por IA multimodales para el reconocimiento de emociones ha demostrado ser beneficiosa para capturar la intrincada interacción de diversas señales de expresión humana que se manifiestan en múltiples modalidades. El estudio actual tiene como objetivo desarrollar un sistema efectivo de reconocimiento de emociones multimodal conocido como MM-EMOR para mejorar la eficacia de los esfuerzos de reconocimiento de emociones centrados en las modalidades de audio y texto. El uso de características de espectrograma Mel, características de cromagrama y la Red Neuronal Convolucional (CNN) Mobilenet para procesar datos de audio son fundamentales para el funcionamiento de este sistema, mientras que un modelo Roberta basado en atención atiende a la modalidad de texto. La metodología de este estudio se basa en una evaluación exhaustiva de este enfoque en tres conjuntos de datos diferentes. Notablemente, los hallazgos empíricos muestran que MM-EMOR supera a modelos competidores en los mismos conjuntos de datos. Este aumento en el rendimiento es notable, con ganancias de precisión de un impresionante 7% en un conjunto de datos y un sustancial 8% en otro. Lo más significativo, el aumento observado en la precisión para el último conjunto de datos fue asombroso, con un 18%.