logo móvil
Contáctanos

Investigación sobre el progreso en la tecnología de modelos de preentrenamiento multimodal de visión y lenguaje

Autores: Wang, Huansha; Huang, Ruiyang; Zhang, Jianpeng

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Investigación sobre el progreso en la tecnología de modelos de preentrenamiento multimodal de visión y lenguaje


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelo de preentrenamiento
Procesamiento de lenguaje natural
Visión por computadora
Conjuntos de datos multimodales
Imagen-lenguaje
Video-lenguaje

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
Debido a que el modelo de preentrenamiento no está limitado por la escala de la anotación de datos y puede aprender información semántica general, tiene un buen rendimiento en tareas relacionadas con el procesamiento del lenguaje natural y la visión por computadora. En los últimos años, se ha prestado cada vez más atención a la investigación sobre el modelo de preentrenamiento multimodal. Se han propuesto muchos conjuntos de datos multimodales visión-lenguaje y modelos relacionados uno tras otro. Con el fin de resumir y analizar mejor el estado de desarrollo y la tendencia futura de la tecnología del modelo de preentrenamiento multimodal visión-lenguaje, en primer lugar, este documento peina de manera exhaustiva el sistema de categorías y las tareas relacionadas del preentrenamiento multimodal visión-lenguaje. En segundo lugar, se resume y analiza el progreso de la investigación sobre el preentrenamiento multimodal visión-lenguaje desde las dos dimensiones de modelos imagen-lenguaje y video-lenguaje. Finalmente, se discuten los problemas y tendencias de desarrollo en el preentrenamiento multimodal visión-lenguaje.

Otros recursos que podrían interesarte

Temas Virtualpro