Políticas orientadas a la instrucción multimodal conscientes de la historia para tareas de navegación
Autores: Mukhametzianov, Renas; Nambo, Hidetaka
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Políticas orientadas a la instrucción multimodal conscientes de la historia para tareas de navegación
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Modelos de lenguaje a gran escala
Transformadores multimodales
Navegación visión-lenguaje
Anotaciones multimodales
Codificador preentrenado visión-lenguaje
Mecanismo de puntuación de atención entrenable
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
El surgimiento de modelos de lenguaje a gran escala y transformadores multimodales ha permitido políticas basadas en instrucciones, como la navegación visión-lenguaje. Para aprovechar su conocimiento general del mundo, proponemos anotaciones multimodales para opciones de acción y soporte para la selección de un espacio de acción dinámico y descriptible. Nuestro marco de trabajo emplea un transformador multimodal que procesa imágenes de la cámara frontal, nubes de puntos del sensor de detección de luz y alcance (LIDAR) y tareas como instrucciones textuales para producir una política de decisión consciente del historial para la navegación de robots móviles. Nuestro enfoque aprovecha un codificador de visión-lenguaje preentrenado e lo integra con un decodificador GPT generativo causal personalizado para predecir secuencias de acción dentro de un historial de estado-acción. Proponemos un mecanismo de puntuación de atención entrenable para seleccionar eficientemente la acción más adecuada de un conjunto variable de opciones posibles. Las opciones de acción son pares texto-imagen y se codifican utilizando el mismo codificador multimodal empleado para los estados del entorno. Este enfoque de anotar y seleccionar acciones dinámicamente es aplicable a tareas de toma de decisiones multidominio más amplias. Comparamos dos modelos de referencia, ViLT (transformador visión-lenguaje) y FLAVA (alineación de lenguaje y visión fundamental), y encontramos que FLAVA logra un rendimiento superior dentro de las limitaciones de uso de memoria de video de 8 GB en la fase de entrenamiento. Se realizaron experimentos tanto en entornos simulados como en entornos del mundo real utilizando nuestros conjuntos de datos personalizados para episodios de finalización de tareas instruidas, demostrando una fuerte precisión de predicción. Estos resultados destacan el potencial de espacios de acción multimodales y dinámicos para la navegación de robots basada en instrucciones y más allá.
Descripción
El surgimiento de modelos de lenguaje a gran escala y transformadores multimodales ha permitido políticas basadas en instrucciones, como la navegación visión-lenguaje. Para aprovechar su conocimiento general del mundo, proponemos anotaciones multimodales para opciones de acción y soporte para la selección de un espacio de acción dinámico y descriptible. Nuestro marco de trabajo emplea un transformador multimodal que procesa imágenes de la cámara frontal, nubes de puntos del sensor de detección de luz y alcance (LIDAR) y tareas como instrucciones textuales para producir una política de decisión consciente del historial para la navegación de robots móviles. Nuestro enfoque aprovecha un codificador de visión-lenguaje preentrenado e lo integra con un decodificador GPT generativo causal personalizado para predecir secuencias de acción dentro de un historial de estado-acción. Proponemos un mecanismo de puntuación de atención entrenable para seleccionar eficientemente la acción más adecuada de un conjunto variable de opciones posibles. Las opciones de acción son pares texto-imagen y se codifican utilizando el mismo codificador multimodal empleado para los estados del entorno. Este enfoque de anotar y seleccionar acciones dinámicamente es aplicable a tareas de toma de decisiones multidominio más amplias. Comparamos dos modelos de referencia, ViLT (transformador visión-lenguaje) y FLAVA (alineación de lenguaje y visión fundamental), y encontramos que FLAVA logra un rendimiento superior dentro de las limitaciones de uso de memoria de video de 8 GB en la fase de entrenamiento. Se realizaron experimentos tanto en entornos simulados como en entornos del mundo real utilizando nuestros conjuntos de datos personalizados para episodios de finalización de tareas instruidas, demostrando una fuerte precisión de predicción. Estos resultados destacan el potencial de espacios de acción multimodales y dinámicos para la navegación de robots basada en instrucciones y más allá.