logo móvil
Contáctanos

Generación de explicaciones de lenguaje natural multimodal para la respuesta a preguntas visuales basada en múltiples datos de referencia

Autores: Zhu, He; Togo, Ren; Ogawa, Takahiro; Haseyama, Miki

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Generación de explicaciones de lenguaje natural multimodal para la respuesta a preguntas visuales basada en múltiples datos de referencia


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo
Interpretabilidad
Respuesta a preguntas visuales
Explicaciones en lenguaje natural
Modelo multimodal
Detección de objetos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 49

Citaciones: Sin citaciones


Descripción
A medida que la investigación en aprendizaje profundo continúa avanzando, la interpretabilidad se está volviendo tan importante como el rendimiento del modelo. Realizar estudios de interpretabilidad para comprender los procesos de toma de decisiones de los modelos de aprendizaje profundo puede mejorar el rendimiento y proporcionar información valiosa para los humanos. La interpretabilidad de la respuesta visual a preguntas (VQA), una tarea crucial para la interacción humano-computadora, ha captado la atención de los investigadores debido a su amplia gama de aplicaciones. La generación de explicaciones en lenguaje natural para VQA que los humanos puedan entender mejor ha ido reemplazando gradualmente a las representaciones de mapas de calor como el enfoque principal en el campo. Los humanos suelen responder preguntas identificando primero los objetos principales en una imagen y luego consultando diversas fuentes de información, tanto dentro como fuera de la imagen, incluyendo el conocimiento previo. Sin embargo, estudios anteriores solo han considerado imágenes de entrada, lo que resulta en información insuficiente que puede llevar a respuestas incorrectas y explicaciones implausibles. Para abordar este problema, introducimos múltiples referencias además de la imagen de entrada. Específicamente, proponemos un modelo multimodal que genera explicaciones en lenguaje natural para VQA. Introducimos conocimiento externo utilizando la imagen de entrada y la pregunta e incorporamos información de objetos en el modelo a través de un módulo de detección de objetos. Al aumentar la información disponible durante el proceso de generación del modelo, mejoramos significativamente la precisión de VQA y la confiabilidad de las explicaciones generadas. Además, empleamos un vector conjunto de fusión de características simple y efectivo para combinar información de múltiples modalidades mientras se maximiza la preservación de la información. Experimentos de evaluación cualitativa y cuantitativa demuestran que el método propuesto puede generar explicaciones más confiables que los métodos de vanguardia manteniendo la precisión de respuesta.

Otros recursos que podrían interesarte

Temas Virtualpro