Lcv2: un marco universal sin preentrenamiento para la respuesta a preguntas visuales fundamentadas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Lcv2: un marco universal sin preentrenamiento para la respuesta a preguntas visuales fundamentadas

Autores: Chen, Yuhan; Su, Lumei; Chen, Lihua; Lin, Zhiwei

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Lcv2: un marco universal sin preentrenamiento para la respuesta a preguntas visuales fundamentadas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Respuesta visual a preguntas

Potencia computacional

Recursos de datos

Modelo de lenguaje grande

Fundamentos visuales

Conjuntos de datos de referencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones

Los sistemas de Respuestas a Preguntas Visuales Fundamentadas dependen en gran medida de una potencia computacional sustancial y recursos de datos en el preentrenamiento. En respuesta a este desafío, este documento introduce el enfoque modular LCV2, que utiliza un modelo de lenguaje grande congelado (LLM) para vincular el módulo genérico de respuestas a preguntas visuales (VQA) con un módulo genérico de fundamentación visual (VG). Aprovecha el conocimiento generalizable de estos modelos expertos, evitando la necesidad de cualquier preentrenamiento a gran escala. Innovadoramente, dentro del marco LCV2, los pares de preguntas y respuestas predichas se transforman en leyendas descriptivas y de referencia, mejorando la claridad de las pistas visuales dirigidas por el texto de la pregunta para la fundamentación del módulo VG. Esto compensa las limitaciones de la falta de acoplamiento intrínseco texto-visual en marcos no de extremo a extremo. Se realizaron experimentos exhaustivos en conjuntos de datos de referencia, como GQA, CLEVR y VizWiz-VQA-Grounding, para evaluar el rendimiento del método y compararlo con varios métodos de referencia. En particular, logró un puntaje de F1 de IoU del 59.6% en el conjunto de datos GQA y un puntaje de F1 de IoU del 37.4% en el conjunto de datos CLEVR, superando algunos resultados de referencia y demostrando el rendimiento competitivo de LCV2.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro