Un método de Aprendizaje por Refuerzo basado en un mecanismo de muestreo mejorado para la penetración de vehículos aéreos no tripulados
Autores: Wang, Yue; Li, Kexv; Zhuang, Xing; Liu, Xinyu; Li, Hanyu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un método de Aprendizaje por Refuerzo basado en un mecanismo de muestreo mejorado para la penetración de vehículos aéreos no tripulados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Vehículos aéreos no tripulados
Juegos de UAV
Métodos de inteligencia artificial
Aprendizaje por refuerzo
Utilización de muestras
Algoritmo TCD-SAC
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
La penetración de vehículos aéreos no tripulados (VANT) es un aspecto importante de los juegos de VANT. En los últimos años, la penetración de VANT se ha resuelto generalmente utilizando métodos de inteligencia artificial como el aprendizaje por refuerzo. Sin embargo, la alta demanda de muestras del método de aprendizaje por refuerzo plantea un desafío significativo, específicamente en el contexto de los juegos de VANT. Para mejorar la utilización de muestras en la penetración de VANT, este artículo propone de manera innovadora un mecanismo de muestreo mejorado llamado división de finalización de tareas (TCD) y combina este método con el algoritmo de crítico suave (SAC) para formar el algoritmo TCD-SAC. Para comparar el rendimiento del algoritmo TCD-SAC con otros algoritmos base relacionados, este estudio construye un entorno dinámico, un juego de VANT, y realiza experimentos de entrenamiento y prueba en este entorno. Los resultados muestran que entre todos los algoritmos, el algoritmo TCD-SAC tiene la tasa de utilización de muestras más alta y los mejores resultados de penetración real, y el algoritmo tiene una buena adaptabilidad y robustez en entornos dinámicos.
Descripción
La penetración de vehículos aéreos no tripulados (VANT) es un aspecto importante de los juegos de VANT. En los últimos años, la penetración de VANT se ha resuelto generalmente utilizando métodos de inteligencia artificial como el aprendizaje por refuerzo. Sin embargo, la alta demanda de muestras del método de aprendizaje por refuerzo plantea un desafío significativo, específicamente en el contexto de los juegos de VANT. Para mejorar la utilización de muestras en la penetración de VANT, este artículo propone de manera innovadora un mecanismo de muestreo mejorado llamado división de finalización de tareas (TCD) y combina este método con el algoritmo de crítico suave (SAC) para formar el algoritmo TCD-SAC. Para comparar el rendimiento del algoritmo TCD-SAC con otros algoritmos base relacionados, este estudio construye un entorno dinámico, un juego de VANT, y realiza experimentos de entrenamiento y prueba en este entorno. Los resultados muestran que entre todos los algoritmos, el algoritmo TCD-SAC tiene la tasa de utilización de muestras más alta y los mejores resultados de penetración real, y el algoritmo tiene una buena adaptabilidad y robustez en entornos dinámicos.