logo móvil
Contáctanos

Red de Atención de Fusión Global de Multi-Modalidad para Respuesta a Preguntas Visuales

Autores: Yang, Cheng; Wu, Weijia; Wang, Yuxing; Zhou, Hong

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Red de Atención de Fusión Global de Multi-Modalidad para Respuesta a Preguntas Visuales


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Respuesta visual
Modelo de atención
Red de atención de fusión global
Co-atención
Auto-atención
Conjuntos de datos VQA-v2

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 52

Citaciones: Sin citaciones


Descripción
La respuesta visual (VQA) requiere una comprensión de alto nivel tanto de las preguntas como de las imágenes, junto con un razonamiento visual para predecir la respuesta correcta. Por lo tanto, es importante diseñar un modelo de atención efectivo para asociar regiones clave en una imagen con palabras clave en una pregunta.

Otros recursos que podrían interesarte

Temas Virtualpro