Msgen: red de generación selectiva multimodal para explicaciones fundamentadas
Autores: Li, Dingbang; Chen, Wenzhou; Lin, Xin
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Msgen: red de generación selectiva multimodal para explicaciones fundamentadas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelos
Interpretabilidad
Red de Generación Selectiva Multimodal
Explicaciones
Componentes
Experimentación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Los modelos modernos han demostrado impresionantes capacidades en tareas de razonamiento visual. Sin embargo, la interpretabilidad de sus procesos de toma de decisiones sigue siendo un desafío, causando incertidumbre en su fiabilidad. En respuesta, presentamos la Red Generativa Selectiva Multimodal (MSGeN), un enfoque novedoso para mejorar la interpretabilidad y transparencia en el razonamiento visual. MSGeN puede generar explicaciones que integran de forma fluida información modal diversa, proporcionando una comprensión integral e intuitiva de sus decisiones. El modelo consta de cinco componentes colaborativos: (1) el Codificador Multimodal, que codifica y fusiona los datos de entrada; (2) el Razonador, que es responsable de generar estados de inferencia paso a paso; (3) el Selector, que se utiliza para seleccionar la modalidad para la explicación de cada paso; (4) el Hablante, que genera descripciones en lenguaje natural; y (5) el Puntero, que produce señales visuales. Estos componentes trabajan armónicamente para generar explicaciones enriquecidas con contexto en lenguaje natural y señales visuales. Nuestra extensa experimentación demuestra que MSGeN supera a los modelos existentes de generación de explicaciones multimodales en varios métricas, incluyendo BLEU, METEOR, ROUGE, CIDEr, SPICE y Grounding. También mostramos ejemplos visuales detallados destacando la capacidad de MSGeN para generar explicaciones completas y coherentes, mostrando su efectividad a través de estudios de caso prácticos.
Descripción
Los modelos modernos han demostrado impresionantes capacidades en tareas de razonamiento visual. Sin embargo, la interpretabilidad de sus procesos de toma de decisiones sigue siendo un desafío, causando incertidumbre en su fiabilidad. En respuesta, presentamos la Red Generativa Selectiva Multimodal (MSGeN), un enfoque novedoso para mejorar la interpretabilidad y transparencia en el razonamiento visual. MSGeN puede generar explicaciones que integran de forma fluida información modal diversa, proporcionando una comprensión integral e intuitiva de sus decisiones. El modelo consta de cinco componentes colaborativos: (1) el Codificador Multimodal, que codifica y fusiona los datos de entrada; (2) el Razonador, que es responsable de generar estados de inferencia paso a paso; (3) el Selector, que se utiliza para seleccionar la modalidad para la explicación de cada paso; (4) el Hablante, que genera descripciones en lenguaje natural; y (5) el Puntero, que produce señales visuales. Estos componentes trabajan armónicamente para generar explicaciones enriquecidas con contexto en lenguaje natural y señales visuales. Nuestra extensa experimentación demuestra que MSGeN supera a los modelos existentes de generación de explicaciones multimodales en varios métricas, incluyendo BLEU, METEOR, ROUGE, CIDEr, SPICE y Grounding. También mostramos ejemplos visuales detallados destacando la capacidad de MSGeN para generar explicaciones completas y coherentes, mostrando su efectividad a través de estudios de caso prácticos.