logo móvil
Contáctanos

Red de Colaboración Regional para la Comprensión de Visión-Lenguaje Basada en Detección

Autores: Li, Linyan; Du, Kaile; Gu, Minming; Hu, Fuyuan; Lyu, Fan

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Red de Colaboración Regional para la Comprensión de Visión-Lenguaje Basada en Detección


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Lenguaje de consulta
Comprensión de visión-lenguaje basada en detección
Cajas delimitadoras
Respuesta a preguntas visuales
Anclaje visual
Red colaborativa de regiones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
Dada una consulta de lenguaje, un sistema de comprensión Visión-Lenguaje basado en detección (DVLU) necesita responder basado en las regiones detectadas (es decir, cuadros delimitadores). Con el avance significativo en la detección de objetos, DVLU ha presenciado grandes mejoras en los últimos años, como Respuesta a Preguntas Visuales (VQA) y Anclaje Visual (VG). Sin embargo, los métodos de DVLU existentes siempre procesan cada región de imagen detectada por separado pero ignoran que son un todo integral. Sin la consideración completa del contexto de cada región, la comprensión de la imagen puede contener más sesgos. En este documento, para resolver el problema, se propone un bloque de Red Colaborativa de Regiones (RCN) simple pero efectivo para cerrar la brecha entre las regiones independientes y la tarea integrativa de DVLU. Específicamente, las Relaciones Intra-Región (IntraRR) dentro de cada región detectada se calculan mediante un modelo no local conjunto de posición y canal. Luego, las Relaciones Inter-Región (InterRR) entre todas las regiones detectadas se calculan mediante agrupación y compartiendo parámetros con IntraRR. El RCN propuesto puede mejorar las características de cada región utilizando información de todas las demás regiones y garantiza la consistencia de dimensiones entre la entrada y la salida. El RCN se evalúa en VQA y VG, y los resultados experimentales muestran que nuestro método puede mejorar significativamente el rendimiento de los modelos de DVLU existentes.

Otros recursos que podrían interesarte

Temas Virtualpro