Msgen: red de generación selectiva multimodal para explicaciones fundamentadas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Msgen: red de generación selectiva multimodal para explicaciones fundamentadas

Autores: Li, Dingbang; Chen, Wenzhou; Lin, Xin

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Msgen: red de generación selectiva multimodal para explicaciones fundamentadas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelos

Interpretabilidad

Red de Generación Selectiva Multimodal

Explicaciones

Componentes

Experimentación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones

Los modelos modernos han demostrado impresionantes capacidades en tareas de razonamiento visual. Sin embargo, la interpretabilidad de sus procesos de toma de decisiones sigue siendo un desafío, causando incertidumbre en su fiabilidad. En respuesta, presentamos la Red Generativa Selectiva Multimodal (MSGeN), un enfoque novedoso para mejorar la interpretabilidad y transparencia en el razonamiento visual. MSGeN puede generar explicaciones que integran de forma fluida información modal diversa, proporcionando una comprensión integral e intuitiva de sus decisiones. El modelo consta de cinco componentes colaborativos: (1) el Codificador Multimodal, que codifica y fusiona los datos de entrada; (2) el Razonador, que es responsable de generar estados de inferencia paso a paso; (3) el Selector, que se utiliza para seleccionar la modalidad para la explicación de cada paso; (4) el Hablante, que genera descripciones en lenguaje natural; y (5) el Puntero, que produce señales visuales. Estos componentes trabajan armónicamente para generar explicaciones enriquecidas con contexto en lenguaje natural y señales visuales. Nuestra extensa experimentación demuestra que MSGeN supera a los modelos existentes de generación de explicaciones multimodales en varios métricas, incluyendo BLEU, METEOR, ROUGE, CIDEr, SPICE y Grounding. También mostramos ejemplos visuales detallados destacando la capacidad de MSGeN para generar explicaciones completas y coherentes, mostrando su efectividad a través de estudios de caso prácticos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro