Investigación sobre el progreso en la tecnología de modelos de preentrenamiento multimodal de visión y lenguaje
Autores: Wang, Huansha; Huang, Ruiyang; Zhang, Jianpeng
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Investigación sobre el progreso en la tecnología de modelos de preentrenamiento multimodal de visión y lenguaje
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelo de preentrenamiento
Procesamiento de lenguaje natural
Visión por computadora
Conjuntos de datos multimodales
Imagen-lenguaje
Video-lenguaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Debido a que el modelo de preentrenamiento no está limitado por la escala de la anotación de datos y puede aprender información semántica general, tiene un buen rendimiento en tareas relacionadas con el procesamiento del lenguaje natural y la visión por computadora. En los últimos años, se ha prestado cada vez más atención a la investigación sobre el modelo de preentrenamiento multimodal. Se han propuesto muchos conjuntos de datos multimodales visión-lenguaje y modelos relacionados uno tras otro. Con el fin de resumir y analizar mejor el estado de desarrollo y la tendencia futura de la tecnología del modelo de preentrenamiento multimodal visión-lenguaje, en primer lugar, este documento peina de manera exhaustiva el sistema de categorías y las tareas relacionadas del preentrenamiento multimodal visión-lenguaje. En segundo lugar, se resume y analiza el progreso de la investigación sobre el preentrenamiento multimodal visión-lenguaje desde las dos dimensiones de modelos imagen-lenguaje y video-lenguaje. Finalmente, se discuten los problemas y tendencias de desarrollo en el preentrenamiento multimodal visión-lenguaje.
Descripción
Debido a que el modelo de preentrenamiento no está limitado por la escala de la anotación de datos y puede aprender información semántica general, tiene un buen rendimiento en tareas relacionadas con el procesamiento del lenguaje natural y la visión por computadora. En los últimos años, se ha prestado cada vez más atención a la investigación sobre el modelo de preentrenamiento multimodal. Se han propuesto muchos conjuntos de datos multimodales visión-lenguaje y modelos relacionados uno tras otro. Con el fin de resumir y analizar mejor el estado de desarrollo y la tendencia futura de la tecnología del modelo de preentrenamiento multimodal visión-lenguaje, en primer lugar, este documento peina de manera exhaustiva el sistema de categorías y las tareas relacionadas del preentrenamiento multimodal visión-lenguaje. En segundo lugar, se resume y analiza el progreso de la investigación sobre el preentrenamiento multimodal visión-lenguaje desde las dos dimensiones de modelos imagen-lenguaje y video-lenguaje. Finalmente, se discuten los problemas y tendencias de desarrollo en el preentrenamiento multimodal visión-lenguaje.