Aprendizaje de características no supervisado para reconocimiento de emociones en el habla basado en autoencoder
Autores: Ying, Yangwei; Tu, Yuanwu; Zhou, Hong
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Aprendizaje de características no supervisado para reconocimiento de emociones en el habla basado en autoencoder
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Señales de voz
Emociones
Reconocimiento de emociones en el habla
Técnicas de aprendizaje de características no supervisadas
Autoencoders
Aumento de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Las señales de voz contienen abundante información sobre las emociones personales, lo cual juega un papel importante en la representación de las características y expresiones del potencial humano. Sin embargo, la falta de datos de voz emocionales afecta el desarrollo del reconocimiento de emociones en el habla (SER), lo que también limita la mejora de la precisión en el reconocimiento. Actualmente, el enfoque más efectivo es utilizar técnicas de aprendizaje de características no supervisadas para extraer características de voz de los datos de voz disponibles y generar clasificadores de emociones con estas características. En este artículo, propusimos implementar autoencoders como un autoencoder de eliminación de ruido (DAE) y un autoencoder adversarial (AAE) para extraer las características de LibriSpeech para el pre-entrenamiento del modelo, y luego realizamos experimentos en los conjuntos de datos de Captura de Movimiento Emocional Diádico Interactivo (IEMOCAP) para la clasificación. Teniendo en cuenta el desequilibrio de la distribución de datos en IEMOCAP, desarrollamos un enfoque novedoso de aumento de datos para optimizar el desplazamiento de superposición entre segmentos consecutivos y rediseñamos la división de datos. La mejor precisión de clasificación alcanzó el 78.67% (precisión ponderada, WA) y el 76.89% (precisión no ponderada, UA) con AAE. En comparación con los resultados de vanguardia que conocemos (76.18% de WA y 76.36% de UA con el método de aprendizaje supervisado), logramos una ligera ventaja. Esto sugiere que el uso de aprendizaje no supervisado beneficia el desarrollo de SER y proporciona un nuevo enfoque para eliminar el problema de escasez de datos.
Descripción
Las señales de voz contienen abundante información sobre las emociones personales, lo cual juega un papel importante en la representación de las características y expresiones del potencial humano. Sin embargo, la falta de datos de voz emocionales afecta el desarrollo del reconocimiento de emociones en el habla (SER), lo que también limita la mejora de la precisión en el reconocimiento. Actualmente, el enfoque más efectivo es utilizar técnicas de aprendizaje de características no supervisadas para extraer características de voz de los datos de voz disponibles y generar clasificadores de emociones con estas características. En este artículo, propusimos implementar autoencoders como un autoencoder de eliminación de ruido (DAE) y un autoencoder adversarial (AAE) para extraer las características de LibriSpeech para el pre-entrenamiento del modelo, y luego realizamos experimentos en los conjuntos de datos de Captura de Movimiento Emocional Diádico Interactivo (IEMOCAP) para la clasificación. Teniendo en cuenta el desequilibrio de la distribución de datos en IEMOCAP, desarrollamos un enfoque novedoso de aumento de datos para optimizar el desplazamiento de superposición entre segmentos consecutivos y rediseñamos la división de datos. La mejor precisión de clasificación alcanzó el 78.67% (precisión ponderada, WA) y el 76.89% (precisión no ponderada, UA) con AAE. En comparación con los resultados de vanguardia que conocemos (76.18% de WA y 76.36% de UA con el método de aprendizaje supervisado), logramos una ligera ventaja. Esto sugiere que el uso de aprendizaje no supervisado beneficia el desarrollo de SER y proporciona un nuevo enfoque para eliminar el problema de escasez de datos.