Un Método de Penetración para UAV Basado en Aprendizaje por Refuerzo Distribuido y Demostraciones
Autores: Li, Kexv; Wang, Yue; Zhuang, Xing; Yin, Hao; Liu, Xinyu; Li, Hanyu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un Método de Penetración para UAV Basado en Aprendizaje por Refuerzo Distribuido y Demostraciones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos aéreos no tripulados
Penetración autónoma
Aprendizaje automático
Aprendizaje de políticas combinadas
Aprendizaje por refuerzo
Entornos dinámicos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La penetración de vehículos aéreos no tripulados (VANT) es un vínculo esencial e importante en la guerra moderna. Mejorar la capacidad de penetración autónoma de los VANT a través del aprendizaje automático se ha convertido en un foco de investigación. Sin embargo, la generación actual de estrategias de penetración autónoma para VANT enfrenta el problema de la demanda excesiva de muestras. Para reducir la demanda de muestras, este documento propone un algoritmo de aprendizaje por políticas combinadas (CPL) que combina el aprendizaje por refuerzo distribuido y las demostraciones. De manera innovadora, la acción del algoritmo CPL se determina conjuntamente por la política inicial obtenida de las demostraciones y la política objetivo en la red de actor-crítico de ventaja asíncrona, manteniendo así el papel orientador de las demostraciones en el entrenamiento inicial. En un entorno dinámico complejo y desconocido, se realizaron 1000 experimentos de entrenamiento y 500 experimentos de prueba para el algoritmo CPL y algoritmos de referencia relacionados. Los resultados muestran que el algoritmo CPL tiene la menor demanda de muestras, la mayor eficiencia de convergencia y la tasa de éxito más alta de penetración entre todos los algoritmos, y tiene una fuerte robustez en entornos dinámicos.
Descripción
La penetración de vehículos aéreos no tripulados (VANT) es un vínculo esencial e importante en la guerra moderna. Mejorar la capacidad de penetración autónoma de los VANT a través del aprendizaje automático se ha convertido en un foco de investigación. Sin embargo, la generación actual de estrategias de penetración autónoma para VANT enfrenta el problema de la demanda excesiva de muestras. Para reducir la demanda de muestras, este documento propone un algoritmo de aprendizaje por políticas combinadas (CPL) que combina el aprendizaje por refuerzo distribuido y las demostraciones. De manera innovadora, la acción del algoritmo CPL se determina conjuntamente por la política inicial obtenida de las demostraciones y la política objetivo en la red de actor-crítico de ventaja asíncrona, manteniendo así el papel orientador de las demostraciones en el entrenamiento inicial. En un entorno dinámico complejo y desconocido, se realizaron 1000 experimentos de entrenamiento y 500 experimentos de prueba para el algoritmo CPL y algoritmos de referencia relacionados. Los resultados muestran que el algoritmo CPL tiene la menor demanda de muestras, la mayor eficiencia de convergencia y la tasa de éxito más alta de penetración entre todos los algoritmos, y tiene una fuerte robustez en entornos dinámicos.