logo móvil
Contáctanos

Red de neuronas gráficas para el reconocimiento de emociones en el habla: una fusión de redes convolucionales gráficas de salto y redes de atención gráfica

Autores: Wang, Han; Kim, Deok-Hwan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Red de neuronas gráficas para el reconocimiento de emociones en el habla: una fusión de redes convolucionales gráficas de salto y redes de atención gráfica


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de emociones en el habla
SkipGCNGAT
Redes convolucionales de grafos omitidos
Redes de atención de grafos
Contenido emocional
Relaciones dentro de las señales de habla

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
En el reconocimiento de emociones en el habla (SER), nuestra investigación aborda los desafíos críticos de capturar y evaluar la información de los nodos y sus complejas interrelaciones dentro de los datos de habla. Introducimos Skip Graph Convolutional and Graph Attention Network (SkipGCNGAT), un modelo innovador que combina las fortalezas de las redes convolucionales de gráficos de salto (SkipGCNs) y las redes de atención de gráficos (GATs) para abordar estos desafíos. SkipGCN incorpora conexiones de salto, mejorando el flujo de información a través de la red y mitigando problemas como la desaparición de gradientes, al tiempo que facilita un aprendizaje de representación más profundo. Mientras tanto, el GAT en el modelo asigna pesos de atención dinámicos a los nodos vecinos, lo que permite que SkipGCNGAT se enfoque tanto en las interacciones locales como globales más relevantes dentro de los datos de habla. Esto permite que el modelo capture dependencias sutiles y complejas entre los segmentos de habla, facilitando así una interpretación más precisa del contenido emocional. Supera las limitaciones de los modelos de gráficos de una sola capa anteriores, que no podían representar efectivamente estas relaciones intrincadas a lo largo del tiempo y en diferentes contextos de habla. Además, al introducir una técnica de combinación de SkipGCN previa al agrupamiento, mejoramos aún más la capacidad del modelo para integrar información de múltiples capas antes del agrupamiento, mejorando su capacidad para capturar tanto características espaciales como temporales en el habla. Además, evaluamos rigurosamente SkipGCNGAT en los conjuntos de datos IEMOCAP y MSP-IMPROV, dos conjuntos de datos de referencia en SER. Los resultados demostraron que SkipGCNGAT logró consistentemente un rendimiento de vanguardia. Estos hallazgos destacan la efectividad del modelo propuesto en el reconocimiento preciso de emociones en el habla, ofreciendo ideas valiosas y una base sólida para futuras investigaciones sobre la captura de relaciones complejas dentro de las señales de habla para el reconocimiento de emociones.

Otros recursos que podrían interesarte

Temas Virtualpro