Sistema Multi-Modal Consciente de Emociones Basado en la Fusión de Información del Habla y del Cerebro
Autores: Ghoniem, Rania M.; Algarni, Abeer D.; Shaalan, Khaled
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Sistema Multi-Modal Consciente de Emociones Basado en la Fusión de Información del Habla y del Cerebro
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Multi-modal
Consciente de emociones
Fusión
Características
Clasificación
Híbrido
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En marcos de trabajo multi-modales conscientes de las emociones, es esencial estimar las características emocionales y luego fusionarlas en diferentes grados. Esto sigue básicamente una estrategia a nivel de características o a nivel de decisión. Es muy probable que, aunque las características de varias modalidades puedan mejorar el rendimiento de clasificación, puedan exhibir alta dimensionalidad y hacer que el proceso de aprendizaje sea complejo para los algoritmos de aprendizaje automático más utilizados. Para superar los problemas de extracción de características y fusión multi-modal, se emplean metodologías híbridas de computación evolutiva difusa para demostrar una capacidad ultra-fuerte de aprendizaje de características y reducción de dimensionalidad. Este artículo propone un nuevo sistema consciente de las emociones multi-modal al fusionar el habla con modalidades de EEG. En primer lugar, se estima un conjunto de características mixtas de características dependientes e independientes del hablante a partir de la señal de habla. Además, se utiliza el EEG como canal interno complementando el habla para un reconocimiento más autoritativo, extrayendo múltiples características que pertenecen al tiempo, la frecuencia y el tiempo-frecuencia. Para clasificar datos unimodales de habla o EEG, se propone un modelo híbrido de algoritmo genético de c-means difuso-red neuronal, donde su función de aptitud encuentra el número óptimo de clústeres difusos reduciendo el error de clasificación. Para fusionar la información del habla con el EEG, se utiliza un clasificador separado para cada modalidad, luego se calcula la salida integrando sus probabilidades posteriores. Los resultados muestran la superioridad del modelo propuesto, donde el rendimiento general en términos de tasas de precisión promedio es del 98.06%, 97.28% y 98.53% para el reconocimiento de EEG, habla y multi-modal, respectivamente. El modelo propuesto también se aplica a dos bases de datos públicas para habla y EEG, a saber: SAVEE y MAHNOB, que logran precisiones del 98.21% y 98.26%, respectivamente.
Descripción
En marcos de trabajo multi-modales conscientes de las emociones, es esencial estimar las características emocionales y luego fusionarlas en diferentes grados. Esto sigue básicamente una estrategia a nivel de características o a nivel de decisión. Es muy probable que, aunque las características de varias modalidades puedan mejorar el rendimiento de clasificación, puedan exhibir alta dimensionalidad y hacer que el proceso de aprendizaje sea complejo para los algoritmos de aprendizaje automático más utilizados. Para superar los problemas de extracción de características y fusión multi-modal, se emplean metodologías híbridas de computación evolutiva difusa para demostrar una capacidad ultra-fuerte de aprendizaje de características y reducción de dimensionalidad. Este artículo propone un nuevo sistema consciente de las emociones multi-modal al fusionar el habla con modalidades de EEG. En primer lugar, se estima un conjunto de características mixtas de características dependientes e independientes del hablante a partir de la señal de habla. Además, se utiliza el EEG como canal interno complementando el habla para un reconocimiento más autoritativo, extrayendo múltiples características que pertenecen al tiempo, la frecuencia y el tiempo-frecuencia. Para clasificar datos unimodales de habla o EEG, se propone un modelo híbrido de algoritmo genético de c-means difuso-red neuronal, donde su función de aptitud encuentra el número óptimo de clústeres difusos reduciendo el error de clasificación. Para fusionar la información del habla con el EEG, se utiliza un clasificador separado para cada modalidad, luego se calcula la salida integrando sus probabilidades posteriores. Los resultados muestran la superioridad del modelo propuesto, donde el rendimiento general en términos de tasas de precisión promedio es del 98.06%, 97.28% y 98.53% para el reconocimiento de EEG, habla y multi-modal, respectivamente. El modelo propuesto también se aplica a dos bases de datos públicas para habla y EEG, a saber: SAVEE y MAHNOB, que logran precisiones del 98.21% y 98.26%, respectivamente.