Vl-meta: modelos de visión-lenguaje para meta-aprendizaje multimodal
Autores: Ma, Han; Fan, Baoyu; Ng, Benjamin K.; Lam, Chan-Tong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Vl-meta: modelos de visión-lenguaje para meta-aprendizaje multimodal
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Modelo
Aprendizaje multimodal
VL-Meta
Modelos pre-entrenados
Meta aprendizaje
Preguntas y Respuestas Visuales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 50
Citaciones: Sin citaciones
El aprendizaje multimodal es un área prometedora en inteligencia artificial (IA) que puede hacer que el modelo comprenda diferentes tipos de datos. Los trabajos existentes intentan volver a entrenar un nuevo modelo basado en modelos pre-entrenados que requieren muchos datos, potencia de cálculo y tiempo. Sin embargo, es difícil lograrlo en situaciones de recursos limitados o muestras pequeñas. Por lo tanto, proponemos VL-Meta, Modelos de Visión y Lenguaje para el Aprendizaje Multimodal Meta. Presenta el mapeador de visión-lenguaje y el mapeador de fusión multimodal, que son estructuras de modelos livianos, para utilizar los modelos pre-entrenados existentes y hacer que los modelos comprendan imágenes en el espacio de características del lenguaje y así ahorrar datos de entrenamiento, potencia de cálculo y tiempo; construye el conjunto de tareas meta que solo puede usar una pequeña cantidad de datos para construir suficientes datos de entrenamiento y mejorar la generalización del modelo para aprender el conocimiento de los datos y de las tareas; propone el entrenamiento a nivel de token que puede alinear las entradas con las salidas durante el entrenamiento para mejorar el rendimiento del modelo; y adopta la pérdida de fusión multi-tarea para aprender las diferentes habilidades de los modelos. Logra un buen rendimiento en la tarea de Respuesta a Preguntas Visuales (VQA), lo que muestra la viabilidad y efectividad del modelo. Esta solución puede ayudar a personas ciegas o con discapacidad visual a obtener información visual.
Descripción
El aprendizaje multimodal es un área prometedora en inteligencia artificial (IA) que puede hacer que el modelo comprenda diferentes tipos de datos. Los trabajos existentes intentan volver a entrenar un nuevo modelo basado en modelos pre-entrenados que requieren muchos datos, potencia de cálculo y tiempo. Sin embargo, es difícil lograrlo en situaciones de recursos limitados o muestras pequeñas. Por lo tanto, proponemos VL-Meta, Modelos de Visión y Lenguaje para el Aprendizaje Multimodal Meta. Presenta el mapeador de visión-lenguaje y el mapeador de fusión multimodal, que son estructuras de modelos livianos, para utilizar los modelos pre-entrenados existentes y hacer que los modelos comprendan imágenes en el espacio de características del lenguaje y así ahorrar datos de entrenamiento, potencia de cálculo y tiempo; construye el conjunto de tareas meta que solo puede usar una pequeña cantidad de datos para construir suficientes datos de entrenamiento y mejorar la generalización del modelo para aprender el conocimiento de los datos y de las tareas; propone el entrenamiento a nivel de token que puede alinear las entradas con las salidas durante el entrenamiento para mejorar el rendimiento del modelo; y adopta la pérdida de fusión multi-tarea para aprender las diferentes habilidades de los modelos. Logra un buen rendimiento en la tarea de Respuesta a Preguntas Visuales (VQA), lo que muestra la viabilidad y efectividad del modelo. Esta solución puede ayudar a personas ciegas o con discapacidad visual a obtener información visual.