logo móvil
Contáctanos

Msgen: red de generación selectiva multimodal para explicaciones fundamentadas

Autores: Li, Dingbang; Chen, Wenzhou; Lin, Xin

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Msgen: red de generación selectiva multimodal para explicaciones fundamentadas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelos
Interpretabilidad
Red de Generación Selectiva Multimodal
Explicaciones
Componentes
Experimentación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Los modelos modernos han demostrado impresionantes capacidades en tareas de razonamiento visual. Sin embargo, la interpretabilidad de sus procesos de toma de decisiones sigue siendo un desafío, causando incertidumbre en su fiabilidad. En respuesta, presentamos la Red Generativa Selectiva Multimodal (MSGeN), un enfoque novedoso para mejorar la interpretabilidad y transparencia en el razonamiento visual. MSGeN puede generar explicaciones que integran de forma fluida información modal diversa, proporcionando una comprensión integral e intuitiva de sus decisiones. El modelo consta de cinco componentes colaborativos: (1) el Codificador Multimodal, que codifica y fusiona los datos de entrada; (2) el Razonador, que es responsable de generar estados de inferencia paso a paso; (3) el Selector, que se utiliza para seleccionar la modalidad para la explicación de cada paso; (4) el Hablante, que genera descripciones en lenguaje natural; y (5) el Puntero, que produce señales visuales. Estos componentes trabajan armónicamente para generar explicaciones enriquecidas con contexto en lenguaje natural y señales visuales. Nuestra extensa experimentación demuestra que MSGeN supera a los modelos existentes de generación de explicaciones multimodales en varios métricas, incluyendo BLEU, METEOR, ROUGE, CIDEr, SPICE y Grounding. También mostramos ejemplos visuales detallados destacando la capacidad de MSGeN para generar explicaciones completas y coherentes, mostrando su efectividad a través de estudios de caso prácticos.

Otros recursos que podrían interesarte

Temas Virtualpro