Mejora del rendimiento de los sistemas de reconocimiento de emociones en el habla mediante la combinación de CNN 1D y LSTM con aumento de datos
Autores: Pan, Shing-Tai; Wu, Han-Jui
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejora del rendimiento de los sistemas de reconocimiento de emociones en el habla mediante la combinación de CNN 1D y LSTM con aumento de datos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Dispositivos móviles inteligentes
Interacción por voz
Modelo de aprendizaje automático
Reconocimiento de emociones en el habla
Redes neuronales convolucionales
Redes neuronales LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
En los últimos años, la creciente popularidad de los dispositivos móviles inteligentes ha hecho que la interacción entre dispositivos y usuarios, especialmente a través de la interacción por voz, sea más crucial. Al permitir que los dispositivos inteligentes comprendan mejor los estados emocionales de los usuarios a través de datos de voz, se vuelve posible proporcionar servicios más personalizados. Este artículo propone un nuevo modelo de aprendizaje automático para el reconocimiento de emociones en el habla llamado CLDNN, que combina redes neuronales convolucionales (CNN), redes neuronales de memoria a corto plazo (LSTM) y redes neuronales profundas (DNN). Para diseñar un sistema que se asemeje estrechamente al sistema auditivo humano en el reconocimiento de señales de audio, este artículo utiliza los coeficientes cepstrales de frecuencia de Mel (MFCCs) de los datos de audio como la entrada del modelo de aprendizaje automático.
Descripción
En los últimos años, la creciente popularidad de los dispositivos móviles inteligentes ha hecho que la interacción entre dispositivos y usuarios, especialmente a través de la interacción por voz, sea más crucial. Al permitir que los dispositivos inteligentes comprendan mejor los estados emocionales de los usuarios a través de datos de voz, se vuelve posible proporcionar servicios más personalizados. Este artículo propone un nuevo modelo de aprendizaje automático para el reconocimiento de emociones en el habla llamado CLDNN, que combina redes neuronales convolucionales (CNN), redes neuronales de memoria a corto plazo (LSTM) y redes neuronales profundas (DNN). Para diseñar un sistema que se asemeje estrechamente al sistema auditivo humano en el reconocimiento de señales de audio, este artículo utiliza los coeficientes cepstrales de frecuencia de Mel (MFCCs) de los datos de audio como la entrada del modelo de aprendizaje automático.