Método de Planificación de Rutas Altamente Auto-Adaptativo para Vehículos Terrestres No Tripulados Basado en Extracción de Características de Codificador Transformer y Aprendizaje por Refuerzo Incremental
Autores: Zhang, Tao; Fan, Jie; Zhou, Nana; Gao, Zepeng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Método de Planificación de Rutas Altamente Auto-Adaptativo para Vehículos Terrestres No Tripulados Basado en Extracción de Características de Codificador Transformer y Aprendizaje por Refuerzo Incremental
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Planificación de rutas
Aprendizaje por refuerzo
Codificador transformer
Aprendizaje por refuerzo incremental
Autoencoder
Vehículos terrestres no tripulados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
La planificación de rutas es un componente indispensable para guiar vehículos terrestres no tripulados (UGVs) desde sus posiciones iniciales hasta destinos designados, con el objetivo de determinar trayectorias que sean óptimas o casi óptimas. Si bien se han empleado técnicas convencionales de planificación de rutas para este propósito, los planificadores que utilizan aprendizaje por refuerzo (RL) exhiben una adaptabilidad superior en entornos extremadamente complejos y dinámicos. Sin embargo, los planificadores de rutas basados en RL existentes enfrentan varias deficiencias, notablemente, representaciones de mapas redundantes, extracción de características inadecuada y adaptabilidad limitada en diversos entornos. En respuesta a estos desafíos, este documento propone un enfoque innovador y altamente auto-adaptativo para la planificación de rutas basado en la extracción de características del codificador Transformer, junto con el aprendizaje por refuerzo incremental (IRL). Inicialmente, se utiliza un auto-codificador para comprimir representaciones de mapas redundantes, proporcionando al planificador datos ambientales suficientes mientras se minimiza la complejidad dimensional. Posteriormente, se emplea el codificador Transformer, conocido por su capacidad para analizar dependencias globales de largo alcance, para capturar correlaciones intrincadas entre los estados de los UGV en intervalos continuos. Finalmente, se aprovecha el IRL para mejorar las capacidades de generalización del planificador de rutas, particularmente cuando el agente entrenado se despliega en entornos distintos a sus contrapartes de entrenamiento. Nuestros hallazgos empíricos demuestran que el método propuesto supera a los enfoques tradicionales basados en muestreo uniforme en términos de tiempo de ejecución, longitud de la ruta y suavidad de la trayectoria. Además, exhibe un aumento de cinco veces en adaptabilidad en comparación con las metodologías convencionales de ajuste fino basadas en transferencia de aprendizaje.
Descripción
La planificación de rutas es un componente indispensable para guiar vehículos terrestres no tripulados (UGVs) desde sus posiciones iniciales hasta destinos designados, con el objetivo de determinar trayectorias que sean óptimas o casi óptimas. Si bien se han empleado técnicas convencionales de planificación de rutas para este propósito, los planificadores que utilizan aprendizaje por refuerzo (RL) exhiben una adaptabilidad superior en entornos extremadamente complejos y dinámicos. Sin embargo, los planificadores de rutas basados en RL existentes enfrentan varias deficiencias, notablemente, representaciones de mapas redundantes, extracción de características inadecuada y adaptabilidad limitada en diversos entornos. En respuesta a estos desafíos, este documento propone un enfoque innovador y altamente auto-adaptativo para la planificación de rutas basado en la extracción de características del codificador Transformer, junto con el aprendizaje por refuerzo incremental (IRL). Inicialmente, se utiliza un auto-codificador para comprimir representaciones de mapas redundantes, proporcionando al planificador datos ambientales suficientes mientras se minimiza la complejidad dimensional. Posteriormente, se emplea el codificador Transformer, conocido por su capacidad para analizar dependencias globales de largo alcance, para capturar correlaciones intrincadas entre los estados de los UGV en intervalos continuos. Finalmente, se aprovecha el IRL para mejorar las capacidades de generalización del planificador de rutas, particularmente cuando el agente entrenado se despliega en entornos distintos a sus contrapartes de entrenamiento. Nuestros hallazgos empíricos demuestran que el método propuesto supera a los enfoques tradicionales basados en muestreo uniforme en términos de tiempo de ejecución, longitud de la ruta y suavidad de la trayectoria. Además, exhibe un aumento de cinco veces en adaptabilidad en comparación con las metodologías convencionales de ajuste fino basadas en transferencia de aprendizaje.