Red de neuronas gráficas para el reconocimiento de emociones en el habla: una fusión de redes convolucionales gráficas de salto y redes de atención gráfica

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Red de neuronas gráficas para el reconocimiento de emociones en el habla: una fusión de redes convolucionales gráficas de salto y redes de atención gráfica

Autores: Wang, Han; Kim, Deok-Hwan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Red de neuronas gráficas para el reconocimiento de emociones en el habla: una fusión de redes convolucionales gráficas de salto y redes de atención gráfica

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de emociones en el habla

SkipGCNGAT

Redes convolucionales de grafos omitidos

Redes de atención de grafos

Contenido emocional

Relaciones dentro de las señales de habla

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

En el reconocimiento de emociones en el habla (SER), nuestra investigación aborda los desafíos críticos de capturar y evaluar la información de los nodos y sus complejas interrelaciones dentro de los datos de habla. Introducimos Skip Graph Convolutional and Graph Attention Network (SkipGCNGAT), un modelo innovador que combina las fortalezas de las redes convolucionales de gráficos de salto (SkipGCNs) y las redes de atención de gráficos (GATs) para abordar estos desafíos. SkipGCN incorpora conexiones de salto, mejorando el flujo de información a través de la red y mitigando problemas como la desaparición de gradientes, al tiempo que facilita un aprendizaje de representación más profundo. Mientras tanto, el GAT en el modelo asigna pesos de atención dinámicos a los nodos vecinos, lo que permite que SkipGCNGAT se enfoque tanto en las interacciones locales como globales más relevantes dentro de los datos de habla. Esto permite que el modelo capture dependencias sutiles y complejas entre los segmentos de habla, facilitando así una interpretación más precisa del contenido emocional. Supera las limitaciones de los modelos de gráficos de una sola capa anteriores, que no podían representar efectivamente estas relaciones intrincadas a lo largo del tiempo y en diferentes contextos de habla. Además, al introducir una técnica de combinación de SkipGCN previa al agrupamiento, mejoramos aún más la capacidad del modelo para integrar información de múltiples capas antes del agrupamiento, mejorando su capacidad para capturar tanto características espaciales como temporales en el habla. Además, evaluamos rigurosamente SkipGCNGAT en los conjuntos de datos IEMOCAP y MSP-IMPROV, dos conjuntos de datos de referencia en SER. Los resultados demostraron que SkipGCNGAT logró consistentemente un rendimiento de vanguardia. Estos hallazgos destacan la efectividad del modelo propuesto en el reconocimiento preciso de emociones en el habla, ofreciendo ideas valiosas y una base sólida para futuras investigaciones sobre la captura de relaciones complejas dentro de las señales de habla para el reconocimiento de emociones.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro