Reconocimiento de emociones en el habla a través de corpus cruzados basado en la refinación de características impulsada por atención y reconstrucción espacial
Autores: Tao, Huawei; Jiang, Yixing; Li, Qianqian; Zhao, Li; Yang, Zhizhe
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Reconocimiento de emociones en el habla a través de corpus cruzados basado en la refinación de características impulsada por atención y reconstrucción espacial
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Métodos de procesamiento de características
Información emocional
Redes neuronales profundas
Problemas de cambio de dominio
Sistemas de reconocimiento de emociones
Refinamiento de características impulsado por la atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En escenarios de corpus cruzados, los métodos de procesamiento de características inapropiados tienden a causar la pérdida de información emocional clave. Además, las redes neuronales profundas contienen una redundancia sustancial, lo que provoca problemas de cambio de dominio y perjudica la capacidad de generalización de los sistemas de reconocimiento de emociones. Para abordar estos desafíos, este estudio propone un modelo de reconocimiento de emociones en el habla basado en la refinación de características impulsada por atención y la reconstrucción espacial. Específicamente, el enfoque propuesto consta de tres componentes clave: primero, un autoencoder integrado con un mecanismo de atención de múltiples cabezas para mejorar la capacidad del modelo de centrarse en los componentes emocionales de las características acústicas durante el proceso de compresión de características de la red autoencoder; segundo, un módulo de refinamiento de características y reconstrucción espacial diseñado para mejorar aún más la extracción de características emocionales, con un mecanismo de compuerta empleado para optimizar el proceso de reconstrucción de características; finalmente, la función de pérdida de Charbonnier adoptada como la métrica de pérdida durante el entrenamiento para minimizar la diferencia entre las características del dominio fuente y del dominio objetivo, mejorando así la robustez del modelo en dominios cruzados. Los resultados experimentales demostraron que el método propuesto logró una precisión media de reconocimiento del 46.75% en seis conjuntos de experimentos de corpus cruzados, lo que representa una mejora del 4.17% al 14.33% en comparación con los métodos tradicionales de adaptación de dominio.
Descripción
En escenarios de corpus cruzados, los métodos de procesamiento de características inapropiados tienden a causar la pérdida de información emocional clave. Además, las redes neuronales profundas contienen una redundancia sustancial, lo que provoca problemas de cambio de dominio y perjudica la capacidad de generalización de los sistemas de reconocimiento de emociones. Para abordar estos desafíos, este estudio propone un modelo de reconocimiento de emociones en el habla basado en la refinación de características impulsada por atención y la reconstrucción espacial. Específicamente, el enfoque propuesto consta de tres componentes clave: primero, un autoencoder integrado con un mecanismo de atención de múltiples cabezas para mejorar la capacidad del modelo de centrarse en los componentes emocionales de las características acústicas durante el proceso de compresión de características de la red autoencoder; segundo, un módulo de refinamiento de características y reconstrucción espacial diseñado para mejorar aún más la extracción de características emocionales, con un mecanismo de compuerta empleado para optimizar el proceso de reconstrucción de características; finalmente, la función de pérdida de Charbonnier adoptada como la métrica de pérdida durante el entrenamiento para minimizar la diferencia entre las características del dominio fuente y del dominio objetivo, mejorando así la robustez del modelo en dominios cruzados. Los resultados experimentales demostraron que el método propuesto logró una precisión media de reconocimiento del 46.75% en seis conjuntos de experimentos de corpus cruzados, lo que representa una mejora del 4.17% al 14.33% en comparación con los métodos tradicionales de adaptación de dominio.