logo móvil
Contáctanos

Políticas orientadas a la instrucción multimodal conscientes de la historia para tareas de navegación

Autores: Mukhametzianov, Renas; Nambo, Hidetaka

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Políticas orientadas a la instrucción multimodal conscientes de la historia para tareas de navegación


Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Modelos de lenguaje a gran escala
Transformadores multimodales
Navegación visión-lenguaje
Anotaciones multimodales
Codificador preentrenado visión-lenguaje
Mecanismo de puntuación de atención entrenable

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
El surgimiento de modelos de lenguaje a gran escala y transformadores multimodales ha permitido políticas basadas en instrucciones, como la navegación visión-lenguaje. Para aprovechar su conocimiento general del mundo, proponemos anotaciones multimodales para opciones de acción y soporte para la selección de un espacio de acción dinámico y descriptible. Nuestro marco de trabajo emplea un transformador multimodal que procesa imágenes de la cámara frontal, nubes de puntos del sensor de detección de luz y alcance (LIDAR) y tareas como instrucciones textuales para producir una política de decisión consciente del historial para la navegación de robots móviles. Nuestro enfoque aprovecha un codificador de visión-lenguaje preentrenado e lo integra con un decodificador GPT generativo causal personalizado para predecir secuencias de acción dentro de un historial de estado-acción. Proponemos un mecanismo de puntuación de atención entrenable para seleccionar eficientemente la acción más adecuada de un conjunto variable de opciones posibles. Las opciones de acción son pares texto-imagen y se codifican utilizando el mismo codificador multimodal empleado para los estados del entorno. Este enfoque de anotar y seleccionar acciones dinámicamente es aplicable a tareas de toma de decisiones multidominio más amplias. Comparamos dos modelos de referencia, ViLT (transformador visión-lenguaje) y FLAVA (alineación de lenguaje y visión fundamental), y encontramos que FLAVA logra un rendimiento superior dentro de las limitaciones de uso de memoria de video de 8 GB en la fase de entrenamiento. Se realizaron experimentos tanto en entornos simulados como en entornos del mundo real utilizando nuestros conjuntos de datos personalizados para episodios de finalización de tareas instruidas, demostrando una fuerte precisión de predicción. Estos resultados destacan el potencial de espacios de acción multimodales y dinámicos para la navegación de robots basada en instrucciones y más allá.

Otros recursos que podrían interesarte

Temas Virtualpro