Reconocimiento de emociones en el habla basado en múltiples características acústicas y red neuronal convolucional profunda
Autores: Bhangale, Kishor; Kothandaraman, Mohanaprasad
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento de emociones en el habla basado en múltiples características acústicas y red neuronal convolucional profunda
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de emoción en el habla
MFCC
LPCC
Transformada de paquete de wavelet
Red neuronal convolucional profunda
EMODB
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
El reconocimiento de emociones en el habla (SER) juega un papel vital en la interacción humano-máquina. Un gran número de esquemas de SER han sido anticipados en la última década. Sin embargo, el rendimiento de los sistemas de SER es desafiante debido a la alta complejidad de los sistemas, la poca distintividad de las características y el ruido. Este documento presenta el conjunto de características acústicas basadas en coeficientes cepstrales de frecuencia de Mel (MFCC), coeficientes cepstrales de predicción lineal (LPCC), transformada de paquetes de wavelet (WPT), tasa de cruce por cero (ZCR), centroide espectral, roll-off espectral, curtosis espectral, raíz cuadrada media (RMS), tono, jitter y shimmer para mejorar la distintividad de las características. Además, se utiliza una red neuronal convolucional profunda compacta unidimensional (1-D DCNN) para minimizar la complejidad computacional y representar las dependencias a largo plazo de la señal emocional del habla. La efectividad general del rendimiento de los sistemas SER propuestos se evalúa en la Base de Datos de Habla Emocional de Berlín (EMODB) y en los conjuntos de datos de Habla y Canciones Emocionales de la Base de Datos Audiovisual de Ryerson (RAVDESS). El sistema propuesto proporciona una precisión general del 93,31% y 94,18% para los conjuntos de datos EMODB y RAVDESS, respectivamente. El MFCC y el 1-D DCNN propuestos ofrecen una mayor precisión y superan a las técnicas tradicionales de SER.
Descripción
El reconocimiento de emociones en el habla (SER) juega un papel vital en la interacción humano-máquina. Un gran número de esquemas de SER han sido anticipados en la última década. Sin embargo, el rendimiento de los sistemas de SER es desafiante debido a la alta complejidad de los sistemas, la poca distintividad de las características y el ruido. Este documento presenta el conjunto de características acústicas basadas en coeficientes cepstrales de frecuencia de Mel (MFCC), coeficientes cepstrales de predicción lineal (LPCC), transformada de paquetes de wavelet (WPT), tasa de cruce por cero (ZCR), centroide espectral, roll-off espectral, curtosis espectral, raíz cuadrada media (RMS), tono, jitter y shimmer para mejorar la distintividad de las características. Además, se utiliza una red neuronal convolucional profunda compacta unidimensional (1-D DCNN) para minimizar la complejidad computacional y representar las dependencias a largo plazo de la señal emocional del habla. La efectividad general del rendimiento de los sistemas SER propuestos se evalúa en la Base de Datos de Habla Emocional de Berlín (EMODB) y en los conjuntos de datos de Habla y Canciones Emocionales de la Base de Datos Audiovisual de Ryerson (RAVDESS). El sistema propuesto proporciona una precisión general del 93,31% y 94,18% para los conjuntos de datos EMODB y RAVDESS, respectivamente. El MFCC y el 1-D DCNN propuestos ofrecen una mayor precisión y superan a las técnicas tradicionales de SER.