Diseño de Procedimientos de Vuelo Inteligentes: Un Enfoque de Aprendizaje por Refuerzo con Optimización Multi-Objetivo Basada en Pareto
Autores: Huang, Yunyang; Zhang, Yanxin; Zhu, Yandong; Zhang, Zhuo; Zhu, Longtao; Yang, Hongyu; Ji, Yulong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Diseño de Procedimientos de Vuelo Inteligentes: Un Enfoque de Aprendizaje por Refuerzo con Optimización Multi-Objetivo Basada en Pareto
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Diseño de procedimientos de vuelo
Método basado en aprendizaje por refuerzo
Seguridad
Simplificación de rutas
Impacto ambiental
Frontera de Pareto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
El diseño actual de procedimientos de vuelo se basa principalmente en la experiencia de expertos, careciendo de un enfoque sistemático para equilibrar de manera integral la seguridad, la simplificación de rutas y el impacto ambiental. Para abordar este desafío, este documento propone un método basado en el aprendizaje por refuerzo que aprovecha una ingeniería de recompensas cuidadosamente elaborada para lograr un diseño optimizado de procedimientos de vuelo, considerando de manera efectiva la seguridad, la simplicidad de la ruta y la amabilidad ambiental. Para mejorar aún más el rendimiento al abordar la baja eficiencia de muestreo en el búfer de repetición, introducimos una estrategia de muestreo multiobjetivo basada en la frontera de Pareto, integrada con el algoritmo de actor-crítico suave (SAC). Los resultados experimentales demuestran que el método propuesto genera procedimientos de vuelo ejecutables en el simulador de vuelo de código abierto BlueSky, equilibrando con éxito estos tres objetivos en conflicto, mientras logra un aumento del 28.6% en la velocidad de convergencia y una mejora del 4% en el rendimiento integral en seguridad, simplificación de rutas e impacto ambiental en comparación con el algoritmo base. Este estudio ofrece una solución eficiente y validada para el diseño inteligente de procedimientos de vuelo.
Descripción
El diseño actual de procedimientos de vuelo se basa principalmente en la experiencia de expertos, careciendo de un enfoque sistemático para equilibrar de manera integral la seguridad, la simplificación de rutas y el impacto ambiental. Para abordar este desafío, este documento propone un método basado en el aprendizaje por refuerzo que aprovecha una ingeniería de recompensas cuidadosamente elaborada para lograr un diseño optimizado de procedimientos de vuelo, considerando de manera efectiva la seguridad, la simplicidad de la ruta y la amabilidad ambiental. Para mejorar aún más el rendimiento al abordar la baja eficiencia de muestreo en el búfer de repetición, introducimos una estrategia de muestreo multiobjetivo basada en la frontera de Pareto, integrada con el algoritmo de actor-crítico suave (SAC). Los resultados experimentales demuestran que el método propuesto genera procedimientos de vuelo ejecutables en el simulador de vuelo de código abierto BlueSky, equilibrando con éxito estos tres objetivos en conflicto, mientras logra un aumento del 28.6% en la velocidad de convergencia y una mejora del 4% en el rendimiento integral en seguridad, simplificación de rutas e impacto ambiental en comparación con el algoritmo base. Este estudio ofrece una solución eficiente y validada para el diseño inteligente de procedimientos de vuelo.