Aprendizaje de características no supervisado para reconocimiento de emociones en el habla basado en autoencoder

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje de características no supervisado para reconocimiento de emociones en el habla basado en autoencoder

Autores: Ying, Yangwei; Tu, Yuanwu; Zhou, Hong

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Aprendizaje de características no supervisado para reconocimiento de emociones en el habla basado en autoencoder

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Señales de voz

Emociones

Reconocimiento de emociones en el habla

Técnicas de aprendizaje de características no supervisadas

Autoencoders

Aumento de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

Las señales de voz contienen abundante información sobre las emociones personales, lo cual juega un papel importante en la representación de las características y expresiones del potencial humano. Sin embargo, la falta de datos de voz emocionales afecta el desarrollo del reconocimiento de emociones en el habla (SER), lo que también limita la mejora de la precisión en el reconocimiento. Actualmente, el enfoque más efectivo es utilizar técnicas de aprendizaje de características no supervisadas para extraer características de voz de los datos de voz disponibles y generar clasificadores de emociones con estas características. En este artículo, propusimos implementar autoencoders como un autoencoder de eliminación de ruido (DAE) y un autoencoder adversarial (AAE) para extraer las características de LibriSpeech para el pre-entrenamiento del modelo, y luego realizamos experimentos en los conjuntos de datos de Captura de Movimiento Emocional Diádico Interactivo (IEMOCAP) para la clasificación. Teniendo en cuenta el desequilibrio de la distribución de datos en IEMOCAP, desarrollamos un enfoque novedoso de aumento de datos para optimizar el desplazamiento de superposición entre segmentos consecutivos y rediseñamos la división de datos. La mejor precisión de clasificación alcanzó el 78.67% (precisión ponderada, WA) y el 76.89% (precisión no ponderada, UA) con AAE. En comparación con los resultados de vanguardia que conocemos (76.18% de WA y 76.36% de UA con el método de aprendizaje supervisado), logramos una ligera ventaja. Esto sugiere que el uso de aprendizaje no supervisado beneficia el desarrollo de SER y proporciona un nuevo enfoque para eliminar el problema de escasez de datos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro