Generación de explicaciones de lenguaje natural multimodal para la respuesta a preguntas visuales basada en múltiples datos de referencia
Autores: Zhu, He; Togo, Ren; Ogawa, Takahiro; Haseyama, Miki
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Generación de explicaciones de lenguaje natural multimodal para la respuesta a preguntas visuales basada en múltiples datos de referencia
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo
Interpretabilidad
Respuesta a preguntas visuales
Explicaciones en lenguaje natural
Modelo multimodal
Detección de objetos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
A medida que la investigación en aprendizaje profundo continúa avanzando, la interpretabilidad se está volviendo tan importante como el rendimiento del modelo. Realizar estudios de interpretabilidad para comprender los procesos de toma de decisiones de los modelos de aprendizaje profundo puede mejorar el rendimiento y proporcionar información valiosa para los humanos. La interpretabilidad de la respuesta visual a preguntas (VQA), una tarea crucial para la interacción humano-computadora, ha captado la atención de los investigadores debido a su amplia gama de aplicaciones. La generación de explicaciones en lenguaje natural para VQA que los humanos puedan entender mejor ha ido reemplazando gradualmente a las representaciones de mapas de calor como el enfoque principal en el campo. Los humanos suelen responder preguntas identificando primero los objetos principales en una imagen y luego consultando diversas fuentes de información, tanto dentro como fuera de la imagen, incluyendo el conocimiento previo. Sin embargo, estudios anteriores solo han considerado imágenes de entrada, lo que resulta en información insuficiente que puede llevar a respuestas incorrectas y explicaciones implausibles. Para abordar este problema, introducimos múltiples referencias además de la imagen de entrada. Específicamente, proponemos un modelo multimodal que genera explicaciones en lenguaje natural para VQA. Introducimos conocimiento externo utilizando la imagen de entrada y la pregunta e incorporamos información de objetos en el modelo a través de un módulo de detección de objetos. Al aumentar la información disponible durante el proceso de generación del modelo, mejoramos significativamente la precisión de VQA y la confiabilidad de las explicaciones generadas. Además, empleamos un vector conjunto de fusión de características simple y efectivo para combinar información de múltiples modalidades mientras se maximiza la preservación de la información. Experimentos de evaluación cualitativa y cuantitativa demuestran que el método propuesto puede generar explicaciones más confiables que los métodos de vanguardia manteniendo la precisión de respuesta.
Descripción
A medida que la investigación en aprendizaje profundo continúa avanzando, la interpretabilidad se está volviendo tan importante como el rendimiento del modelo. Realizar estudios de interpretabilidad para comprender los procesos de toma de decisiones de los modelos de aprendizaje profundo puede mejorar el rendimiento y proporcionar información valiosa para los humanos. La interpretabilidad de la respuesta visual a preguntas (VQA), una tarea crucial para la interacción humano-computadora, ha captado la atención de los investigadores debido a su amplia gama de aplicaciones. La generación de explicaciones en lenguaje natural para VQA que los humanos puedan entender mejor ha ido reemplazando gradualmente a las representaciones de mapas de calor como el enfoque principal en el campo. Los humanos suelen responder preguntas identificando primero los objetos principales en una imagen y luego consultando diversas fuentes de información, tanto dentro como fuera de la imagen, incluyendo el conocimiento previo. Sin embargo, estudios anteriores solo han considerado imágenes de entrada, lo que resulta en información insuficiente que puede llevar a respuestas incorrectas y explicaciones implausibles. Para abordar este problema, introducimos múltiples referencias además de la imagen de entrada. Específicamente, proponemos un modelo multimodal que genera explicaciones en lenguaje natural para VQA. Introducimos conocimiento externo utilizando la imagen de entrada y la pregunta e incorporamos información de objetos en el modelo a través de un módulo de detección de objetos. Al aumentar la información disponible durante el proceso de generación del modelo, mejoramos significativamente la precisión de VQA y la confiabilidad de las explicaciones generadas. Además, empleamos un vector conjunto de fusión de características simple y efectivo para combinar información de múltiples modalidades mientras se maximiza la preservación de la información. Experimentos de evaluación cualitativa y cuantitativa demuestran que el método propuesto puede generar explicaciones más confiables que los métodos de vanguardia manteniendo la precisión de respuesta.