logo móvil
Contáctanos

Evitación de obstáculos ligera para UAVs de ala fija utilizando PPO consciente de la entropía

Autores: Su, Meimei; Chai, Haochen; Zhao, Chunhui; Lyu, Yang; Hu, Jinwen

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Evitación de obstáculos ligera para UAVs de ala fija utilizando PPO consciente de la entropía


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Evitación de obstáculos
Aprendizaje por refuerzo profundo
UAVs de ala fija
Cámaras monoculares
Regularización de entropía
Optimización de políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La evitación de obstáculos durante el vuelo a alta velocidad y baja altitud sigue siendo un desafío significativo para los vehículos aéreos no tripulados (VANT), particularmente en entornos desconocidos donde no se dispone de mapas previos y sensores pesados a bordo. Para abordar esto, presentamos un marco de aprendizaje profundo por refuerzo consciente de la entropía que permite a los VANT de ala fija navegar de manera segura utilizando solo cámaras monoculares a bordo. Nuestro sistema cuenta con un módulo de estimación de profundidad de un solo fotograma ligero, optimizado para la ejecución en tiempo real en plataformas de computación en el borde, seguido de un controlador de aprendizaje por refuerzo equipado con una nueva función de recompensa que equilibra el rendimiento en el alcance de objetivos con la suavidad del camino bajo las restricciones dinámicas de ala fija. Para mejorar la optimización de políticas, incorporamos experiencias de alta calidad del búfer de reproducción en el cálculo del gradiente, introduciendo un mecanismo de imitación suave que anima al agente a alinear su comportamiento con acciones previamente exitosas. Para equilibrar aún más la exploración y la explotación, integramos un mecanismo de regularización de entropía adaptativa en el algoritmo de Optimización de Políticas Proximales (PPO). Este módulo ajusta dinámicamente la entropía de la política durante el entrenamiento, lo que conduce a una mayor estabilidad, una convergencia más rápida y una mejor generalización a escenarios no vistos. Amplios experimentos de software en el lazo (SITL) y hardware en el lazo (HITL) demuestran que nuestro enfoque supera a los métodos de referencia en la tasa de éxito de evitación de obstáculos y la calidad del camino, mientras se mantiene ligero y desplegable en plataformas aéreas con recursos limitados.

Otros recursos que podrían interesarte

Temas Virtualpro