logo móvil
Contáctanos

Aprendizaje de características no supervisado para reconocimiento de emociones en el habla basado en autoencoder

Autores: Ying, Yangwei; Tu, Yuanwu; Zhou, Hong

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Aprendizaje de características no supervisado para reconocimiento de emociones en el habla basado en autoencoder


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Señales de voz
Emociones
Reconocimiento de emociones en el habla
Técnicas de aprendizaje de características no supervisadas
Autoencoders
Aumento de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
Las señales de voz contienen abundante información sobre las emociones personales, lo cual juega un papel importante en la representación de las características y expresiones del potencial humano. Sin embargo, la falta de datos de voz emocionales afecta el desarrollo del reconocimiento de emociones en el habla (SER), lo que también limita la mejora de la precisión en el reconocimiento. Actualmente, el enfoque más efectivo es utilizar técnicas de aprendizaje de características no supervisadas para extraer características de voz de los datos de voz disponibles y generar clasificadores de emociones con estas características. En este artículo, propusimos implementar autoencoders como un autoencoder de eliminación de ruido (DAE) y un autoencoder adversarial (AAE) para extraer las características de LibriSpeech para el pre-entrenamiento del modelo, y luego realizamos experimentos en los conjuntos de datos de Captura de Movimiento Emocional Diádico Interactivo (IEMOCAP) para la clasificación. Teniendo en cuenta el desequilibrio de la distribución de datos en IEMOCAP, desarrollamos un enfoque novedoso de aumento de datos para optimizar el desplazamiento de superposición entre segmentos consecutivos y rediseñamos la división de datos. La mejor precisión de clasificación alcanzó el 78.67% (precisión ponderada, WA) y el 76.89% (precisión no ponderada, UA) con AAE. En comparación con los resultados de vanguardia que conocemos (76.18% de WA y 76.36% de UA con el método de aprendizaje supervisado), logramos una ligera ventaja. Esto sugiere que el uso de aprendizaje no supervisado beneficia el desarrollo de SER y proporciona un nuevo enfoque para eliminar el problema de escasez de datos.

Otros recursos que podrían interesarte

Temas Virtualpro