Políticas orientadas a la instrucción multimodal conscientes de la historia para tareas de navegación

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Políticas orientadas a la instrucción multimodal conscientes de la historia para tareas de navegación

Autores: Mukhametzianov, Renas; Nambo, Hidetaka

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Políticas orientadas a la instrucción multimodal conscientes de la historia para tareas de navegación

Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Modelos de lenguaje a gran escala

Transformadores multimodales

Navegación visión-lenguaje

Anotaciones multimodales

Codificador preentrenado visión-lenguaje

Mecanismo de puntuación de atención entrenable

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

El surgimiento de modelos de lenguaje a gran escala y transformadores multimodales ha permitido políticas basadas en instrucciones, como la navegación visión-lenguaje. Para aprovechar su conocimiento general del mundo, proponemos anotaciones multimodales para opciones de acción y soporte para la selección de un espacio de acción dinámico y descriptible. Nuestro marco de trabajo emplea un transformador multimodal que procesa imágenes de la cámara frontal, nubes de puntos del sensor de detección de luz y alcance (LIDAR) y tareas como instrucciones textuales para producir una política de decisión consciente del historial para la navegación de robots móviles. Nuestro enfoque aprovecha un codificador de visión-lenguaje preentrenado e lo integra con un decodificador GPT generativo causal personalizado para predecir secuencias de acción dentro de un historial de estado-acción. Proponemos un mecanismo de puntuación de atención entrenable para seleccionar eficientemente la acción más adecuada de un conjunto variable de opciones posibles. Las opciones de acción son pares texto-imagen y se codifican utilizando el mismo codificador multimodal empleado para los estados del entorno. Este enfoque de anotar y seleccionar acciones dinámicamente es aplicable a tareas de toma de decisiones multidominio más amplias. Comparamos dos modelos de referencia, ViLT (transformador visión-lenguaje) y FLAVA (alineación de lenguaje y visión fundamental), y encontramos que FLAVA logra un rendimiento superior dentro de las limitaciones de uso de memoria de video de 8 GB en la fase de entrenamiento. Se realizaron experimentos tanto en entornos simulados como en entornos del mundo real utilizando nuestros conjuntos de datos personalizados para episodios de finalización de tareas instruidas, demostrando una fuerte precisión de predicción. Estos resultados destacan el potencial de espacios de acción multimodales y dinámicos para la navegación de robots basada en instrucciones y más allá.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro