Completando juegos de explorador con un marco de aprendizaje profundo por refuerzo basado en la navegación del ángulo de comportamiento
Autores: You, Shixun; Diao, Ming; Gao, Lipeng
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Completando juegos de explorador con un marco de aprendizaje profundo por refuerzo basado en la navegación del ángulo de comportamiento
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Cognitivo
Guerra electrónica
UCAV
Aprendizaje profundo por refuerzo
Sensores de radar
Estrategias de maniobra
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
En la guerra electrónica cognitiva, cuando un vehículo de combate típico, como un vehículo aéreo de combate no tripulado (UCAV), utiliza sensores de radar para explorar un espacio desconocido, la búsqueda de objetivos falla debido a un sistema de seguimiento/servomotor ineficiente. Por lo tanto, para resolver este problema, desarrollamos un método de búsqueda de razonamiento autónomo que puede generar acciones de toma de decisiones eficientes y guiar al UCAV lo antes posible hacia el área objetivo. Para un espacio de acción continuo de alta dimensionalidad, las estrategias de maniobra del UCAV están sujetas a ciertas restricciones físicas. Primero registramos los historiales de trayectorias del UCAV como un conjunto de muestras de experimentos supervisados y luego construimos una red de celdas de cuadrícula utilizando memoria a corto y largo plazo (LSTM) para generar una nueva predicción de desplazamiento que reemplace la estimación de la ubicación del objetivo. Finalmente, permitimos que una variedad de algoritmos de aprendizaje profundo basados en control continuo emitan acciones de toma de decisiones óptimas/subóptimas. Todas estas tareas se realizan en un simulador de búsqueda de objetivos tridimensional, es decir, el juego Explorer. Tenga en cuenta que utilizamos el ángulo de comportamiento (BHA) por primera vez como el factor principal del moldeamiento de recompensas del marco de aprendizaje profundo por refuerzo y logramos que el UCAV entrenado alcance una tasa de destrucción del objetivo del 99.96%, es decir, la tasa de victoria del juego, en un ciclo operativo de 0.1 s.
Descripción
En la guerra electrónica cognitiva, cuando un vehículo de combate típico, como un vehículo aéreo de combate no tripulado (UCAV), utiliza sensores de radar para explorar un espacio desconocido, la búsqueda de objetivos falla debido a un sistema de seguimiento/servomotor ineficiente. Por lo tanto, para resolver este problema, desarrollamos un método de búsqueda de razonamiento autónomo que puede generar acciones de toma de decisiones eficientes y guiar al UCAV lo antes posible hacia el área objetivo. Para un espacio de acción continuo de alta dimensionalidad, las estrategias de maniobra del UCAV están sujetas a ciertas restricciones físicas. Primero registramos los historiales de trayectorias del UCAV como un conjunto de muestras de experimentos supervisados y luego construimos una red de celdas de cuadrícula utilizando memoria a corto y largo plazo (LSTM) para generar una nueva predicción de desplazamiento que reemplace la estimación de la ubicación del objetivo. Finalmente, permitimos que una variedad de algoritmos de aprendizaje profundo basados en control continuo emitan acciones de toma de decisiones óptimas/subóptimas. Todas estas tareas se realizan en un simulador de búsqueda de objetivos tridimensional, es decir, el juego Explorer. Tenga en cuenta que utilizamos el ángulo de comportamiento (BHA) por primera vez como el factor principal del moldeamiento de recompensas del marco de aprendizaje profundo por refuerzo y logramos que el UCAV entrenado alcance una tasa de destrucción del objetivo del 99.96%, es decir, la tasa de victoria del juego, en un ciclo operativo de 0.1 s.