logo móvil
Contáctanos

Lcv2: un marco universal sin preentrenamiento para la respuesta a preguntas visuales fundamentadas

Autores: Chen, Yuhan; Su, Lumei; Chen, Lihua; Lin, Zhiwei

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Lcv2: un marco universal sin preentrenamiento para la respuesta a preguntas visuales fundamentadas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Respuesta visual a preguntas
Potencia computacional
Recursos de datos
Modelo de lenguaje grande
Fundamentos visuales
Conjuntos de datos de referencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
Los sistemas de Respuestas a Preguntas Visuales Fundamentadas dependen en gran medida de una potencia computacional sustancial y recursos de datos en el preentrenamiento. En respuesta a este desafío, este documento introduce el enfoque modular LCV2, que utiliza un modelo de lenguaje grande congelado (LLM) para vincular el módulo genérico de respuestas a preguntas visuales (VQA) con un módulo genérico de fundamentación visual (VG). Aprovecha el conocimiento generalizable de estos modelos expertos, evitando la necesidad de cualquier preentrenamiento a gran escala. Innovadoramente, dentro del marco LCV2, los pares de preguntas y respuestas predichas se transforman en leyendas descriptivas y de referencia, mejorando la claridad de las pistas visuales dirigidas por el texto de la pregunta para la fundamentación del módulo VG. Esto compensa las limitaciones de la falta de acoplamiento intrínseco texto-visual en marcos no de extremo a extremo. Se realizaron experimentos exhaustivos en conjuntos de datos de referencia, como GQA, CLEVR y VizWiz-VQA-Grounding, para evaluar el rendimiento del método y compararlo con varios métodos de referencia. En particular, logró un puntaje de F1 de IoU del 59.6% en el conjunto de datos GQA y un puntaje de F1 de IoU del 37.4% en el conjunto de datos CLEVR, superando algunos resultados de referencia y demostrando el rendimiento competitivo de LCV2.

Otros recursos que podrían interesarte

Temas Virtualpro