logo móvil
Contáctanos

Completando juegos de explorador con un marco de aprendizaje profundo por refuerzo basado en la navegación del ángulo de comportamiento

Autores: You, Shixun; Diao, Ming; Gao, Lipeng

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Completando juegos de explorador con un marco de aprendizaje profundo por refuerzo basado en la navegación del ángulo de comportamiento


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Cognitivo
Guerra electrónica
UCAV
Aprendizaje profundo por refuerzo
Sensores de radar
Estrategias de maniobra

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 43

Citaciones: Sin citaciones


Descripción
En la guerra electrónica cognitiva, cuando un vehículo de combate típico, como un vehículo aéreo de combate no tripulado (UCAV), utiliza sensores de radar para explorar un espacio desconocido, la búsqueda de objetivos falla debido a un sistema de seguimiento/servomotor ineficiente. Por lo tanto, para resolver este problema, desarrollamos un método de búsqueda de razonamiento autónomo que puede generar acciones de toma de decisiones eficientes y guiar al UCAV lo antes posible hacia el área objetivo. Para un espacio de acción continuo de alta dimensionalidad, las estrategias de maniobra del UCAV están sujetas a ciertas restricciones físicas. Primero registramos los historiales de trayectorias del UCAV como un conjunto de muestras de experimentos supervisados y luego construimos una red de celdas de cuadrícula utilizando memoria a corto y largo plazo (LSTM) para generar una nueva predicción de desplazamiento que reemplace la estimación de la ubicación del objetivo. Finalmente, permitimos que una variedad de algoritmos de aprendizaje profundo basados en control continuo emitan acciones de toma de decisiones óptimas/subóptimas. Todas estas tareas se realizan en un simulador de búsqueda de objetivos tridimensional, es decir, el juego Explorer. Tenga en cuenta que utilizamos el ángulo de comportamiento (BHA) por primera vez como el factor principal del moldeamiento de recompensas del marco de aprendizaje profundo por refuerzo y logramos que el UCAV entrenado alcance una tasa de destrucción del objetivo del 99.96%, es decir, la tasa de victoria del juego, en un ciclo operativo de 0.1 s.

Otros recursos que podrían interesarte

Temas Virtualpro