logo móvil
Contáctanos

Red de memoria de atención sabia para preguntas y respuestas visuales

Autores: Xiang, Yingxin; Zhang, Chengyuan; Han, Zhichao; Yu, Hao; Li, Jiaye; Zhu, Lei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Red de memoria de atención sabia para preguntas y respuestas visuales


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Respuesta visual a preguntas
Modelo de atención compuesto
Red de memoria de atención de ruta
Multimodal
Fusión de características detalladas
Relaciones multinivel

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
La pregunta visual respondida (VQA) es considerada como una tarea de fusión de características finas multimodales, que requiere la construcción de relaciones multidireccionales y omnidireccionales entre nodos. Una solución principal es el modelo de atención compuesta que está compuesto por co-atención (CA) y auto-atención (SA). Sin embargo, los modelos compuestos existentes solo consideran la pila de bloques de atención únicos, carecen de memoria histórica de forma de ruta y ajustes generales. Proponemos una red de memoria de atención de ruta (PAM) para construir un modelo de atención compuesta más robusto. Después de cada bloque de atención de salto único (SA o CA), la importancia de los nodos acumulativos se utiliza para calibrar la fuerza de la señal de las características de los nodos. Se utilizan cuatro matrices de atención de salto único con memoria para obtener la matriz de co-atención de ruta de atención de forma de ruta (PA); por lo tanto, el bloque de PA es capaz de sintetizar y fortalecer el efecto de aprendizaje en toda la ruta. Además, utilizamos puertas de protección del modal objetivo para verificar los valores del modal fuente en CA y puertas de condicionamiento de otro modal para guiar la consulta y la clave del modal actual en SA. El PAM propuesto es beneficioso para construir una relación de vecindario de varios saltos robusta entre visual y lenguaje y logra un excelente rendimiento en los conjuntos de datos VQA2.0 y VQA-CP V2.

Otros recursos que podrían interesarte

Temas Virtualpro