Evitación de obstáculos ligera para UAVs de ala fija utilizando PPO consciente de la entropía

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evitación de obstáculos ligera para UAVs de ala fija utilizando PPO consciente de la entropía

Autores: Su, Meimei; Chai, Haochen; Zhao, Chunhui; Lyu, Yang; Hu, Jinwen

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Evitación de obstáculos ligera para UAVs de ala fija utilizando PPO consciente de la entropía

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Evitación de obstáculos

Aprendizaje por refuerzo profundo

UAVs de ala fija

Cámaras monoculares

Regularización de entropía

Optimización de políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La evitación de obstáculos durante el vuelo a alta velocidad y baja altitud sigue siendo un desafío significativo para los vehículos aéreos no tripulados (VANT), particularmente en entornos desconocidos donde no se dispone de mapas previos y sensores pesados a bordo. Para abordar esto, presentamos un marco de aprendizaje profundo por refuerzo consciente de la entropía que permite a los VANT de ala fija navegar de manera segura utilizando solo cámaras monoculares a bordo. Nuestro sistema cuenta con un módulo de estimación de profundidad de un solo fotograma ligero, optimizado para la ejecución en tiempo real en plataformas de computación en el borde, seguido de un controlador de aprendizaje por refuerzo equipado con una nueva función de recompensa que equilibra el rendimiento en el alcance de objetivos con la suavidad del camino bajo las restricciones dinámicas de ala fija. Para mejorar la optimización de políticas, incorporamos experiencias de alta calidad del búfer de reproducción en el cálculo del gradiente, introduciendo un mecanismo de imitación suave que anima al agente a alinear su comportamiento con acciones previamente exitosas. Para equilibrar aún más la exploración y la explotación, integramos un mecanismo de regularización de entropía adaptativa en el algoritmo de Optimización de Políticas Proximales (PPO). Este módulo ajusta dinámicamente la entropía de la política durante el entrenamiento, lo que conduce a una mayor estabilidad, una convergencia más rápida y una mejor generalización a escenarios no vistos. Amplios experimentos de software en el lazo (SITL) y hardware en el lazo (HITL) demuestran que nuestro enfoque supera a los métodos de referencia en la tasa de éxito de evitación de obstáculos y la calidad del camino, mientras se mantiene ligero y desplegable en plataformas aéreas con recursos limitados.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro