Completando juegos de explorador con un marco de aprendizaje profundo por refuerzo basado en la navegación del ángulo de comportamiento

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Completando juegos de explorador con un marco de aprendizaje profundo por refuerzo basado en la navegación del ángulo de comportamiento

Autores: You, Shixun; Diao, Ming; Gao, Lipeng

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Completando juegos de explorador con un marco de aprendizaje profundo por refuerzo basado en la navegación del ángulo de comportamiento

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Cognitivo

Guerra electrónica

UCAV

Aprendizaje profundo por refuerzo

Sensores de radar

Estrategias de maniobra

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 43

Citaciones: Sin citaciones

En la guerra electrónica cognitiva, cuando un vehículo de combate típico, como un vehículo aéreo de combate no tripulado (UCAV), utiliza sensores de radar para explorar un espacio desconocido, la búsqueda de objetivos falla debido a un sistema de seguimiento/servomotor ineficiente. Por lo tanto, para resolver este problema, desarrollamos un método de búsqueda de razonamiento autónomo que puede generar acciones de toma de decisiones eficientes y guiar al UCAV lo antes posible hacia el área objetivo. Para un espacio de acción continuo de alta dimensionalidad, las estrategias de maniobra del UCAV están sujetas a ciertas restricciones físicas. Primero registramos los historiales de trayectorias del UCAV como un conjunto de muestras de experimentos supervisados y luego construimos una red de celdas de cuadrícula utilizando memoria a corto y largo plazo (LSTM) para generar una nueva predicción de desplazamiento que reemplace la estimación de la ubicación del objetivo. Finalmente, permitimos que una variedad de algoritmos de aprendizaje profundo basados en control continuo emitan acciones de toma de decisiones óptimas/subóptimas. Todas estas tareas se realizan en un simulador de búsqueda de objetivos tridimensional, es decir, el juego Explorer. Tenga en cuenta que utilizamos el ángulo de comportamiento (BHA) por primera vez como el factor principal del moldeamiento de recompensas del marco de aprendizaje profundo por refuerzo y logramos que el UCAV entrenado alcance una tasa de destrucción del objetivo del 99.96%, es decir, la tasa de victoria del juego, en un ciclo operativo de 0.1 s.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro