Red de Atención de Fusión Global de Multi-Modalidad para Respuesta a Preguntas Visuales
Autores: Yang, Cheng; Wu, Weijia; Wang, Yuxing; Zhou, Hong
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Red de Atención de Fusión Global de Multi-Modalidad para Respuesta a Preguntas Visuales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Respuesta visual
Modelo de atención
Red de atención de fusión global
Co-atención
Auto-atención
Conjuntos de datos VQA-v2
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 52
Citaciones: Sin citaciones
La respuesta visual (VQA) requiere una comprensión de alto nivel tanto de las preguntas como de las imágenes, junto con un razonamiento visual para predecir la respuesta correcta. Por lo tanto, es importante diseñar un modelo de atención efectivo para asociar regiones clave en una imagen con palabras clave en una pregunta.
Descripción
La respuesta visual (VQA) requiere una comprensión de alto nivel tanto de las preguntas como de las imágenes, junto con un razonamiento visual para predecir la respuesta correcta. Por lo tanto, es importante diseñar un modelo de atención efectivo para asociar regiones clave en una imagen con palabras clave en una pregunta.