Un enfoque de aprendizaje profundo para la optimización del reconocimiento de emociones en el habla mediante meta-aprendizaje
Autores: Ottoni, Lara Toledo Cordeiro; Ottoni, André Luiz Carvalho; Cerqueira, Jés de Jesus Fiais
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un enfoque de aprendizaje profundo para la optimización del reconocimiento de emociones en el habla mediante meta-aprendizaje
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de emociones en el habla
Enfoque de aprendizaje profundo
Algoritmos de aprendizaje automático
Técnicas de aumento de datos
Métodos de extracción de características
Meta-aprendizaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
El reconocimiento de emociones en el habla (SER) es ampliamente aplicable hoy en día, beneficiando áreas como entretenimiento, robótica y salud. Este entendimiento emocional mejora la interacción usuario-máquina, haciendo que los sistemas sean más receptivos y brinden experiencias más naturales. En robótica, el SER es útil en dispositivos de asistencia domiciliaria, cuidado de personas mayores y educación especial, facilitando la comunicación efectiva. Además, en entornos de salud, puede monitorear el bienestar emocional de los pacientes. Sin embargo, lograr altos niveles de precisión es desafiante y complicado por la necesidad de seleccionar la mejor combinación de algoritmos de aprendizaje automático, hiperparámetros, conjuntos de datos, técnicas de aumento de datos y métodos de extracción de características. Por lo tanto, este estudio tiene como objetivo desarrollar un enfoque de aprendizaje profundo para configuraciones óptimas de SER. Adentra en los dominios de ajustes de optimizador, tasas de aprendizaje, técnicas de aumento de datos, métodos de extracción de características y arquitecturas neuronales para los conjuntos de datos RAVDESS, TESS, SAVEE y R+T+S (RAVDESS+TESS+SAVEE). Después de encontrar las mejores configuraciones de SER, se lleva a cabo el meta-aprendizaje, transfiriendo las mejores configuraciones a dos conjuntos de datos adicionales, CREMA-D y R+T+S+C (RAVDESS+TESS+SAVEE+CREMA-D). El enfoque desarrollado demostró ser efectivo en encontrar las mejores configuraciones, logrando una precisión del 97.01% para RAVDESS, 100% para TESS, 90.62% para SAVEE y 97.37% para R+T+S. Además, utilizando el meta-aprendizaje, los conjuntos de datos CREMA-D y R+T+S+C lograron precisión del 83.28% y 90.94%, respectivamente.
Descripción
El reconocimiento de emociones en el habla (SER) es ampliamente aplicable hoy en día, beneficiando áreas como entretenimiento, robótica y salud. Este entendimiento emocional mejora la interacción usuario-máquina, haciendo que los sistemas sean más receptivos y brinden experiencias más naturales. En robótica, el SER es útil en dispositivos de asistencia domiciliaria, cuidado de personas mayores y educación especial, facilitando la comunicación efectiva. Además, en entornos de salud, puede monitorear el bienestar emocional de los pacientes. Sin embargo, lograr altos niveles de precisión es desafiante y complicado por la necesidad de seleccionar la mejor combinación de algoritmos de aprendizaje automático, hiperparámetros, conjuntos de datos, técnicas de aumento de datos y métodos de extracción de características. Por lo tanto, este estudio tiene como objetivo desarrollar un enfoque de aprendizaje profundo para configuraciones óptimas de SER. Adentra en los dominios de ajustes de optimizador, tasas de aprendizaje, técnicas de aumento de datos, métodos de extracción de características y arquitecturas neuronales para los conjuntos de datos RAVDESS, TESS, SAVEE y R+T+S (RAVDESS+TESS+SAVEE). Después de encontrar las mejores configuraciones de SER, se lleva a cabo el meta-aprendizaje, transfiriendo las mejores configuraciones a dos conjuntos de datos adicionales, CREMA-D y R+T+S+C (RAVDESS+TESS+SAVEE+CREMA-D). El enfoque desarrollado demostró ser efectivo en encontrar las mejores configuraciones, logrando una precisión del 97.01% para RAVDESS, 100% para TESS, 90.62% para SAVEE y 97.37% para R+T+S. Además, utilizando el meta-aprendizaje, los conjuntos de datos CREMA-D y R+T+S+C lograron precisión del 83.28% y 90.94%, respectivamente.