Característica mejorada de aprendizaje multitarea para el reconocimiento de emociones en el habla utilizando árboles de decisión y LSTM
Autores: Wang, Chun; Shen, Xizhong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Característica mejorada de aprendizaje multitarea para el reconocimiento de emociones en el habla utilizando árboles de decisión y LSTM
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de emociones en el habla
Aprendizaje profundo
Extracción de características
Redes LSTM
Marco de aprendizaje multitarea
Precisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
El reconocimiento de emociones en el habla (SER) juega un papel importante en la tecnología de interacción humano-computadora (HCI) y tiene una amplia gama de escenarios de aplicación en medicina médica, psicoterapia y otras aplicaciones. En los últimos años, con el desarrollo del aprendizaje profundo, muchos investigadores han combinado la tecnología de extracción de características con la tecnología de aprendizaje profundo para extraer información emocional más discriminativa. Sin embargo, una única tarea de clasificación de emociones en el habla dificulta la utilización efectiva de la información de características, lo que resulta en redundancia de características. Por lo tanto, este documento utiliza el mejoramiento de características del habla (SFE) como tarea auxiliar para proporcionar información adicional para la tarea de SER. Este documento combina Redes Neuronales de Memoria a Corto y Largo Plazo (LSTM) con árboles de decisión suaves y propone un marco de aprendizaje multi-tarea basado en una estructura de árbol de decisión. Específicamente, entrena la red LSTM calculando las distancias de características en diferentes nodos hoja en el árbol de decisión suave, logrando así una representación mejorada de las características del habla. Los resultados muestran que el algoritmo logra una precisión del 85.6% en el conjunto de datos EMO-DB y del 81.3% en el conjunto de datos CASIA. Esto representa una mejora del 11.8% sobre la línea de base en el conjunto de datos EMO-DB y del 14.9% en el conjunto de datos CASIA, demostrando la efectividad del método. Además, realizamos experimentos de cruce de bases de datos, análisis de rendimiento en tiempo real y análisis del entorno de ruido para validar la robustez y practicidad de nuestro método. Los análisis adicionales demuestran además que nuestro enfoque funciona de manera confiable en diferentes bases de datos, mantiene capacidades de procesamiento en tiempo real y es robusto en entornos ruidosos.
Descripción
El reconocimiento de emociones en el habla (SER) juega un papel importante en la tecnología de interacción humano-computadora (HCI) y tiene una amplia gama de escenarios de aplicación en medicina médica, psicoterapia y otras aplicaciones. En los últimos años, con el desarrollo del aprendizaje profundo, muchos investigadores han combinado la tecnología de extracción de características con la tecnología de aprendizaje profundo para extraer información emocional más discriminativa. Sin embargo, una única tarea de clasificación de emociones en el habla dificulta la utilización efectiva de la información de características, lo que resulta en redundancia de características. Por lo tanto, este documento utiliza el mejoramiento de características del habla (SFE) como tarea auxiliar para proporcionar información adicional para la tarea de SER. Este documento combina Redes Neuronales de Memoria a Corto y Largo Plazo (LSTM) con árboles de decisión suaves y propone un marco de aprendizaje multi-tarea basado en una estructura de árbol de decisión. Específicamente, entrena la red LSTM calculando las distancias de características en diferentes nodos hoja en el árbol de decisión suave, logrando así una representación mejorada de las características del habla. Los resultados muestran que el algoritmo logra una precisión del 85.6% en el conjunto de datos EMO-DB y del 81.3% en el conjunto de datos CASIA. Esto representa una mejora del 11.8% sobre la línea de base en el conjunto de datos EMO-DB y del 14.9% en el conjunto de datos CASIA, demostrando la efectividad del método. Además, realizamos experimentos de cruce de bases de datos, análisis de rendimiento en tiempo real y análisis del entorno de ruido para validar la robustez y practicidad de nuestro método. Los análisis adicionales demuestran además que nuestro enfoque funciona de manera confiable en diferentes bases de datos, mantiene capacidades de procesamiento en tiempo real y es robusto en entornos ruidosos.