Un algoritmo de reutilización de políticas basado en la predicción de la posición del destino para la guía de aeronaves utilizando aprendizaje por refuerzo profundo
Autores: Wang, Zhuang; Ai, Yi; Zuo, Qinghai; Zhou, Shaowu; Li, Hui
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un algoritmo de reutilización de políticas basado en la predicción de la posición del destino para la guía de aeronaves utilizando aprendizaje por refuerzo profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Inteligencia artificial
Guía de aeronaves
Aprendizaje profundo por refuerzo
Algoritmo de reutilización de políticas
Predicción de la posición de destino
Eficiencia de entrenamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
La inteligencia artificial para la guía de aeronaves es un tema de investigación candente, y el aprendizaje por refuerzo profundo es uno de los métodos prometedores. Sin embargo, debido a los diferentes patrones de movimiento de los destinos en diferentes tareas de guía, es ineficiente entrenar agentes desde cero. En este artículo, se propone un algoritmo de reutilización de políticas basado en la predicción de la posición del destino para resolver este problema. Primero, se optimiza la función de recompensa para mejorar la calidad de la trayectoria de vuelo y la eficiencia del entrenamiento. Luego, al predecir la posible posición de terminación de los destinos en diferentes patrones de movimiento, el problema se transforma en un problema de guía de aeronaves con destino en posición fija. Por último, tomando el agente en el escenario de destino en posición fija como el agente base, se puede entrenar un nuevo agente de guía de manera eficiente. Los resultados de simulación muestran que este método puede mejorar significativamente la eficiencia del entrenamiento de los agentes en nuevas tareas, y su rendimiento es estable en tareas con diferentes similitudes. Esta investigación amplía el alcance de aplicación del enfoque de reutilización de políticas y también ilumina la investigación en otros campos.
Descripción
La inteligencia artificial para la guía de aeronaves es un tema de investigación candente, y el aprendizaje por refuerzo profundo es uno de los métodos prometedores. Sin embargo, debido a los diferentes patrones de movimiento de los destinos en diferentes tareas de guía, es ineficiente entrenar agentes desde cero. En este artículo, se propone un algoritmo de reutilización de políticas basado en la predicción de la posición del destino para resolver este problema. Primero, se optimiza la función de recompensa para mejorar la calidad de la trayectoria de vuelo y la eficiencia del entrenamiento. Luego, al predecir la posible posición de terminación de los destinos en diferentes patrones de movimiento, el problema se transforma en un problema de guía de aeronaves con destino en posición fija. Por último, tomando el agente en el escenario de destino en posición fija como el agente base, se puede entrenar un nuevo agente de guía de manera eficiente. Los resultados de simulación muestran que este método puede mejorar significativamente la eficiencia del entrenamiento de los agentes en nuevas tareas, y su rendimiento es estable en tareas con diferentes similitudes. Esta investigación amplía el alcance de aplicación del enfoque de reutilización de políticas y también ilumina la investigación en otros campos.