Generación de explicaciones de lenguaje natural multimodal para la respuesta a preguntas visuales basada en múltiples datos de referencia

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Generación de explicaciones de lenguaje natural multimodal para la respuesta a preguntas visuales basada en múltiples datos de referencia

Autores: Zhu, He; Togo, Ren; Ogawa, Takahiro; Haseyama, Miki

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Generación de explicaciones de lenguaje natural multimodal para la respuesta a preguntas visuales basada en múltiples datos de referencia

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo

Interpretabilidad

Respuesta a preguntas visuales

Explicaciones en lenguaje natural

Modelo multimodal

Detección de objetos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 49

Citaciones: Sin citaciones

A medida que la investigación en aprendizaje profundo continúa avanzando, la interpretabilidad se está volviendo tan importante como el rendimiento del modelo. Realizar estudios de interpretabilidad para comprender los procesos de toma de decisiones de los modelos de aprendizaje profundo puede mejorar el rendimiento y proporcionar información valiosa para los humanos. La interpretabilidad de la respuesta visual a preguntas (VQA), una tarea crucial para la interacción humano-computadora, ha captado la atención de los investigadores debido a su amplia gama de aplicaciones. La generación de explicaciones en lenguaje natural para VQA que los humanos puedan entender mejor ha ido reemplazando gradualmente a las representaciones de mapas de calor como el enfoque principal en el campo. Los humanos suelen responder preguntas identificando primero los objetos principales en una imagen y luego consultando diversas fuentes de información, tanto dentro como fuera de la imagen, incluyendo el conocimiento previo. Sin embargo, estudios anteriores solo han considerado imágenes de entrada, lo que resulta en información insuficiente que puede llevar a respuestas incorrectas y explicaciones implausibles. Para abordar este problema, introducimos múltiples referencias además de la imagen de entrada. Específicamente, proponemos un modelo multimodal que genera explicaciones en lenguaje natural para VQA. Introducimos conocimiento externo utilizando la imagen de entrada y la pregunta e incorporamos información de objetos en el modelo a través de un módulo de detección de objetos. Al aumentar la información disponible durante el proceso de generación del modelo, mejoramos significativamente la precisión de VQA y la confiabilidad de las explicaciones generadas. Además, empleamos un vector conjunto de fusión de características simple y efectivo para combinar información de múltiples modalidades mientras se maximiza la preservación de la información. Experimentos de evaluación cualitativa y cuantitativa demuestran que el método propuesto puede generar explicaciones más confiables que los métodos de vanguardia manteniendo la precisión de respuesta.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro