logo móvil
Contáctanos

Una imagen puede valer cien palabras para la respuesta visual a preguntas

Autores: Hirota, Yusuke; Garcia, Noa; Otani, Mayu; Chu, Chenhui; Nakashima, Yuta

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Una imagen puede valer cien palabras para la respuesta visual a preguntas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Comprensión
Imágenes
Representaciones
Características visuales
Modelos de lenguaje
Interpretabilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones


Descripción
¿Hasta qué punto pueden llegar las representaciones textuales en la comprensión de imágenes? En la comprensión de imágenes, las representaciones efectivas son esenciales. Los rasgos visuales profundos de los modelos de reconocimiento de objetos dominan actualmente diversas tareas, especialmente la Respuesta a Preguntas Visuales (VQA). Sin embargo, estas características convencionales a menudo tienen dificultades para capturar detalles de la imagen de manera que se asemejen a la comprensión humana, y sus procesos de decisión carecen de interpretabilidad. Mientras tanto, el reciente progreso en los modelos de lenguaje sugiere que el texto descriptivo podría ofrecer una alternativa viable. Este documento investigó el uso de texto descriptivo como alternativa a los rasgos visuales profundos en VQA. Proponemos procesar pares de descripción-pregunta en lugar de rasgos visuales, utilizando un modelo Transformer solo de lenguaje. También exploramos estrategias de aumento de datos para mejorar la diversidad del conjunto de entrenamiento y mitigar el sesgo estadístico. Una extensa evaluación muestra que las representaciones textuales utilizando aproximadamente cien palabras pueden competir efectivamente con los rasgos visuales profundos tanto en los conjuntos de datos VQA 2.0 como en VQA-CP v2. Nuestros experimentos cualitativos revelan además que estas representaciones textuales permiten una investigación más clara de los procesos de decisión del modelo VQA, mejorando así la interpretabilidad.

Otros recursos que podrían interesarte

Temas Virtualpro