Lcv2: un marco universal sin preentrenamiento para la respuesta a preguntas visuales fundamentadas
Autores: Chen, Yuhan; Su, Lumei; Chen, Lihua; Lin, Zhiwei
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Lcv2: un marco universal sin preentrenamiento para la respuesta a preguntas visuales fundamentadas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Respuesta visual a preguntas
Potencia computacional
Recursos de datos
Modelo de lenguaje grande
Fundamentos visuales
Conjuntos de datos de referencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Los sistemas de Respuestas a Preguntas Visuales Fundamentadas dependen en gran medida de una potencia computacional sustancial y recursos de datos en el preentrenamiento. En respuesta a este desafío, este documento introduce el enfoque modular LCV2, que utiliza un modelo de lenguaje grande congelado (LLM) para vincular el módulo genérico de respuestas a preguntas visuales (VQA) con un módulo genérico de fundamentación visual (VG). Aprovecha el conocimiento generalizable de estos modelos expertos, evitando la necesidad de cualquier preentrenamiento a gran escala. Innovadoramente, dentro del marco LCV2, los pares de preguntas y respuestas predichas se transforman en leyendas descriptivas y de referencia, mejorando la claridad de las pistas visuales dirigidas por el texto de la pregunta para la fundamentación del módulo VG. Esto compensa las limitaciones de la falta de acoplamiento intrínseco texto-visual en marcos no de extremo a extremo. Se realizaron experimentos exhaustivos en conjuntos de datos de referencia, como GQA, CLEVR y VizWiz-VQA-Grounding, para evaluar el rendimiento del método y compararlo con varios métodos de referencia. En particular, logró un puntaje de F1 de IoU del 59.6% en el conjunto de datos GQA y un puntaje de F1 de IoU del 37.4% en el conjunto de datos CLEVR, superando algunos resultados de referencia y demostrando el rendimiento competitivo de LCV2.
Descripción
Los sistemas de Respuestas a Preguntas Visuales Fundamentadas dependen en gran medida de una potencia computacional sustancial y recursos de datos en el preentrenamiento. En respuesta a este desafío, este documento introduce el enfoque modular LCV2, que utiliza un modelo de lenguaje grande congelado (LLM) para vincular el módulo genérico de respuestas a preguntas visuales (VQA) con un módulo genérico de fundamentación visual (VG). Aprovecha el conocimiento generalizable de estos modelos expertos, evitando la necesidad de cualquier preentrenamiento a gran escala. Innovadoramente, dentro del marco LCV2, los pares de preguntas y respuestas predichas se transforman en leyendas descriptivas y de referencia, mejorando la claridad de las pistas visuales dirigidas por el texto de la pregunta para la fundamentación del módulo VG. Esto compensa las limitaciones de la falta de acoplamiento intrínseco texto-visual en marcos no de extremo a extremo. Se realizaron experimentos exhaustivos en conjuntos de datos de referencia, como GQA, CLEVR y VizWiz-VQA-Grounding, para evaluar el rendimiento del método y compararlo con varios métodos de referencia. En particular, logró un puntaje de F1 de IoU del 59.6% en el conjunto de datos GQA y un puntaje de F1 de IoU del 37.4% en el conjunto de datos CLEVR, superando algunos resultados de referencia y demostrando el rendimiento competitivo de LCV2.