Red de memoria de atención sabia para preguntas y respuestas visuales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Red de memoria de atención sabia para preguntas y respuestas visuales

Autores: Xiang, Yingxin; Zhang, Chengyuan; Han, Zhichao; Yu, Hao; Li, Jiaye; Zhu, Lei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Red de memoria de atención sabia para preguntas y respuestas visuales

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Respuesta visual a preguntas

Modelo de atención compuesto

Red de memoria de atención de ruta

Multimodal

Fusión de características detalladas

Relaciones multinivel

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones

La pregunta visual respondida (VQA) es considerada como una tarea de fusión de características finas multimodales, que requiere la construcción de relaciones multidireccionales y omnidireccionales entre nodos. Una solución principal es el modelo de atención compuesta que está compuesto por co-atención (CA) y auto-atención (SA). Sin embargo, los modelos compuestos existentes solo consideran la pila de bloques de atención únicos, carecen de memoria histórica de forma de ruta y ajustes generales. Proponemos una red de memoria de atención de ruta (PAM) para construir un modelo de atención compuesta más robusto. Después de cada bloque de atención de salto único (SA o CA), la importancia de los nodos acumulativos se utiliza para calibrar la fuerza de la señal de las características de los nodos. Se utilizan cuatro matrices de atención de salto único con memoria para obtener la matriz de co-atención de ruta de atención de forma de ruta (PA); por lo tanto, el bloque de PA es capaz de sintetizar y fortalecer el efecto de aprendizaje en toda la ruta. Además, utilizamos puertas de protección del modal objetivo para verificar los valores del modal fuente en CA y puertas de condicionamiento de otro modal para guiar la consulta y la clave del modal actual en SA. El PAM propuesto es beneficioso para construir una relación de vecindario de varios saltos robusta entre visual y lenguaje y logra un excelente rendimiento en los conjuntos de datos VQA2.0 y VQA-CP V2.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro