logo móvil
Contáctanos

Vl-meta: modelos de visión-lenguaje para meta-aprendizaje multimodal

Autores: Ma, Han; Fan, Baoyu; Ng, Benjamin K.; Lam, Chan-Tong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Vl-meta: modelos de visión-lenguaje para meta-aprendizaje multimodal


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Modelo
Aprendizaje multimodal
VL-Meta
Modelos pre-entrenados
Meta aprendizaje
Preguntas y Respuestas Visuales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 50

Citaciones: Sin citaciones


Descripción
El aprendizaje multimodal es un área prometedora en inteligencia artificial (IA) que puede hacer que el modelo comprenda diferentes tipos de datos. Los trabajos existentes intentan volver a entrenar un nuevo modelo basado en modelos pre-entrenados que requieren muchos datos, potencia de cálculo y tiempo. Sin embargo, es difícil lograrlo en situaciones de recursos limitados o muestras pequeñas. Por lo tanto, proponemos VL-Meta, Modelos de Visión y Lenguaje para el Aprendizaje Multimodal Meta. Presenta el mapeador de visión-lenguaje y el mapeador de fusión multimodal, que son estructuras de modelos livianos, para utilizar los modelos pre-entrenados existentes y hacer que los modelos comprendan imágenes en el espacio de características del lenguaje y así ahorrar datos de entrenamiento, potencia de cálculo y tiempo; construye el conjunto de tareas meta que solo puede usar una pequeña cantidad de datos para construir suficientes datos de entrenamiento y mejorar la generalización del modelo para aprender el conocimiento de los datos y de las tareas; propone el entrenamiento a nivel de token que puede alinear las entradas con las salidas durante el entrenamiento para mejorar el rendimiento del modelo; y adopta la pérdida de fusión multi-tarea para aprender las diferentes habilidades de los modelos. Logra un buen rendimiento en la tarea de Respuesta a Preguntas Visuales (VQA), lo que muestra la viabilidad y efectividad del modelo. Esta solución puede ayudar a personas ciegas o con discapacidad visual a obtener información visual.

Otros recursos que podrían interesarte

Temas Virtualpro