Investigación sobre el reconocimiento de emociones en el habla basado en la fusión de características del operador de energía Teager y los coeficientes MFCC invertidos
Autores: Wang, Feifan; Shen, Xizhong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Investigación sobre el reconocimiento de emociones en el habla basado en la fusión de características del operador de energía Teager y los coeficientes MFCC invertidos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Impacto
Discurso
Banco de filtros Mel
MFCC
Información emocional
Fusión de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Como parte importante de nuestra vida diaria, el habla tiene un gran impacto en la forma en que las personas se comunican. El banco de filtros Mel utilizado en el proceso de extracción de MFCC tiene una mejor capacidad para procesar la componente de baja frecuencia de una señal de habla, pero debilita la información emocional contenida en la parte de alta frecuencia de la señal de habla. Utilizamos el banco de filtros Mel invertido para mejorar el procesamiento de características de la parte de alta frecuencia de la señal de habla para obtener los coeficientes IMFCC y fusionar las características de MFCC para obtener I_MFCC. Finalmente, para caracterizar de manera más precisa los rasgos emocionales, combinamos los coeficientes del operador de energía de Teager (TEOC) y el I_MFCC para obtener TEOC&I_MFCC y lo introducimos en la red neuronal CNN_LSTM. Los resultados experimentales en RAVDESS muestran que la fusión de características utilizando los coeficientes del operador de energía de Teager y I_MFCC tiene una mayor precisión en el reconocimiento de emociones, y el sistema logra un 92.99% de precisión ponderada (WA) y un 92.88% de precisión no ponderada (UA).
Descripción
Como parte importante de nuestra vida diaria, el habla tiene un gran impacto en la forma en que las personas se comunican. El banco de filtros Mel utilizado en el proceso de extracción de MFCC tiene una mejor capacidad para procesar la componente de baja frecuencia de una señal de habla, pero debilita la información emocional contenida en la parte de alta frecuencia de la señal de habla. Utilizamos el banco de filtros Mel invertido para mejorar el procesamiento de características de la parte de alta frecuencia de la señal de habla para obtener los coeficientes IMFCC y fusionar las características de MFCC para obtener I_MFCC. Finalmente, para caracterizar de manera más precisa los rasgos emocionales, combinamos los coeficientes del operador de energía de Teager (TEOC) y el I_MFCC para obtener TEOC&I_MFCC y lo introducimos en la red neuronal CNN_LSTM. Los resultados experimentales en RAVDESS muestran que la fusión de características utilizando los coeficientes del operador de energía de Teager y I_MFCC tiene una mayor precisión en el reconocimiento de emociones, y el sistema logra un 92.99% de precisión ponderada (WA) y un 92.88% de precisión no ponderada (UA).