Método de Toma de Decisiones de Maniobra Autónoma para Vehículos Aéreos No Tripulados Basado en el Algoritmo de Actor-Crítico Suave
Autores: Quan, Shiming; Cao, Su; Wang, Chang; Yu, Huangchao
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Método de Toma de Decisiones de Maniobra Autónoma para Vehículos Aéreos No Tripulados Basado en el Algoritmo de Actor-Crítico Suave
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Espacio de acción continua
Toma de decisiones de maniobra autónoma
Modelo cinemático de UAV
Proceso de Decisión de Markov
Actor-Crítico Suave
Algoritmo de aprendizaje por refuerzo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Enfocándose en métodos de espacio de acción continua para la toma de decisiones de maniobra autónoma en escenarios de vehículos aéreos no tripulados 1v1, este artículo primero establece un modelo cinemático de UAV y un marco de toma de decisiones bajo el Proceso de Decisión de Markov. En segundo lugar, se desarrolla una estrategia de control continuo basada en el algoritmo de aprendizaje por refuerzo Soft Actor-Critic (SAC) para generar comandos de maniobra precisos. Luego, se diseña una función de recompensa acoplada a la situación multidimensional, introduciendo una métrica de Puntos de Salud (HP) para evaluar las ventajas situacionales y simular efectos acumulativos de manera cuantitativa. Finalmente, extensas simulaciones en un entorno Gym personalizado validan la efectividad del método propuesto y su robustez tanto en condiciones de observación ideales como ruidosas.
Descripción
Enfocándose en métodos de espacio de acción continua para la toma de decisiones de maniobra autónoma en escenarios de vehículos aéreos no tripulados 1v1, este artículo primero establece un modelo cinemático de UAV y un marco de toma de decisiones bajo el Proceso de Decisión de Markov. En segundo lugar, se desarrolla una estrategia de control continuo basada en el algoritmo de aprendizaje por refuerzo Soft Actor-Critic (SAC) para generar comandos de maniobra precisos. Luego, se diseña una función de recompensa acoplada a la situación multidimensional, introduciendo una métrica de Puntos de Salud (HP) para evaluar las ventajas situacionales y simular efectos acumulativos de manera cuantitativa. Finalmente, extensas simulaciones en un entorno Gym personalizado validan la efectividad del método propuesto y su robustez tanto en condiciones de observación ideales como ruidosas.