Red de memoria de atención sabia para preguntas y respuestas visuales
Autores: Xiang, Yingxin; Zhang, Chengyuan; Han, Zhichao; Yu, Hao; Li, Jiaye; Zhu, Lei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Red de memoria de atención sabia para preguntas y respuestas visuales
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Respuesta visual a preguntas
Modelo de atención compuesto
Red de memoria de atención de ruta
Multimodal
Fusión de características detalladas
Relaciones multinivel
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
La pregunta visual respondida (VQA) es considerada como una tarea de fusión de características finas multimodales, que requiere la construcción de relaciones multidireccionales y omnidireccionales entre nodos. Una solución principal es el modelo de atención compuesta que está compuesto por co-atención (CA) y auto-atención (SA). Sin embargo, los modelos compuestos existentes solo consideran la pila de bloques de atención únicos, carecen de memoria histórica de forma de ruta y ajustes generales. Proponemos una red de memoria de atención de ruta (PAM) para construir un modelo de atención compuesta más robusto. Después de cada bloque de atención de salto único (SA o CA), la importancia de los nodos acumulativos se utiliza para calibrar la fuerza de la señal de las características de los nodos. Se utilizan cuatro matrices de atención de salto único con memoria para obtener la matriz de co-atención de ruta de atención de forma de ruta (PA); por lo tanto, el bloque de PA es capaz de sintetizar y fortalecer el efecto de aprendizaje en toda la ruta. Además, utilizamos puertas de protección del modal objetivo para verificar los valores del modal fuente en CA y puertas de condicionamiento de otro modal para guiar la consulta y la clave del modal actual en SA. El PAM propuesto es beneficioso para construir una relación de vecindario de varios saltos robusta entre visual y lenguaje y logra un excelente rendimiento en los conjuntos de datos VQA2.0 y VQA-CP V2.
Descripción
La pregunta visual respondida (VQA) es considerada como una tarea de fusión de características finas multimodales, que requiere la construcción de relaciones multidireccionales y omnidireccionales entre nodos. Una solución principal es el modelo de atención compuesta que está compuesto por co-atención (CA) y auto-atención (SA). Sin embargo, los modelos compuestos existentes solo consideran la pila de bloques de atención únicos, carecen de memoria histórica de forma de ruta y ajustes generales. Proponemos una red de memoria de atención de ruta (PAM) para construir un modelo de atención compuesta más robusto. Después de cada bloque de atención de salto único (SA o CA), la importancia de los nodos acumulativos se utiliza para calibrar la fuerza de la señal de las características de los nodos. Se utilizan cuatro matrices de atención de salto único con memoria para obtener la matriz de co-atención de ruta de atención de forma de ruta (PA); por lo tanto, el bloque de PA es capaz de sintetizar y fortalecer el efecto de aprendizaje en toda la ruta. Además, utilizamos puertas de protección del modal objetivo para verificar los valores del modal fuente en CA y puertas de condicionamiento de otro modal para guiar la consulta y la clave del modal actual en SA. El PAM propuesto es beneficioso para construir una relación de vecindario de varios saltos robusta entre visual y lenguaje y logra un excelente rendimiento en los conjuntos de datos VQA2.0 y VQA-CP V2.