Investigación sobre el progreso en la tecnología de modelos de preentrenamiento multimodal de visión y lenguaje

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Investigación sobre el progreso en la tecnología de modelos de preentrenamiento multimodal de visión y lenguaje

Autores: Wang, Huansha; Huang, Ruiyang; Zhang, Jianpeng

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Investigación sobre el progreso en la tecnología de modelos de preentrenamiento multimodal de visión y lenguaje

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelo de preentrenamiento

Procesamiento de lenguaje natural

Visión por computadora

Conjuntos de datos multimodales

Imagen-lenguaje

Video-lenguaje

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

Debido a que el modelo de preentrenamiento no está limitado por la escala de la anotación de datos y puede aprender información semántica general, tiene un buen rendimiento en tareas relacionadas con el procesamiento del lenguaje natural y la visión por computadora. En los últimos años, se ha prestado cada vez más atención a la investigación sobre el modelo de preentrenamiento multimodal. Se han propuesto muchos conjuntos de datos multimodales visión-lenguaje y modelos relacionados uno tras otro. Con el fin de resumir y analizar mejor el estado de desarrollo y la tendencia futura de la tecnología del modelo de preentrenamiento multimodal visión-lenguaje, en primer lugar, este documento peina de manera exhaustiva el sistema de categorías y las tareas relacionadas del preentrenamiento multimodal visión-lenguaje. En segundo lugar, se resume y analiza el progreso de la investigación sobre el preentrenamiento multimodal visión-lenguaje desde las dos dimensiones de modelos imagen-lenguaje y video-lenguaje. Finalmente, se discuten los problemas y tendencias de desarrollo en el preentrenamiento multimodal visión-lenguaje.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro