Un enfoque mejorado de Deep Q-Learning para la navegación de un agente UAV autónomo en un entorno 3D con obstáculos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un enfoque mejorado de Deep Q-Learning para la navegación de un agente UAV autónomo en un entorno 3D con obstáculos

Autores: Farid, Ghulam; Bilal, Muhammad; Zhang, Lanyong; Alharbi, Ayman; Ahmed, Ishaq; Azhar, Muhammad

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Un enfoque mejorado de Deep Q-Learning para la navegación de un agente UAV autónomo en un entorno 3D con obstáculos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Algoritmos de planificación

Aprendizaje por refuerzo

Planificación de trayectorias de robots

Red neuronal profunda Q

Repetición de experiencias priorizadas

Regularización L2

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El rendimiento de los UAV al ejecutar varios perfiles de misión depende en gran medida de la selección de algoritmos de planificación. Los algoritmos de aprendizaje por refuerzo (RL) pueden ser utilizados de manera efectiva para la planificación de rutas de robots. Debido a la selección aleatoria de acciones en caso de empates, el algoritmo tradicional de Q-learning y sus otras variantes enfrentan problemas de convergencia lenta y planificación de rutas subóptimas en entornos de navegación de alta dimensión. Para resolver estos problemas, proponemos una red Q profunda (DQN) mejorada, que incorpora un mecanismo eficiente de desempate, reproducción de experiencias priorizadas (PER) y regularización L2. El mecanismo de desempate adoptado mejora la selección de acciones y, en última instancia, ayuda a generar una trayectoria óptima para el UAV en un entorno 3D desordenado. Para mejorar la velocidad de convergencia del algoritmo Q tradicional, se utiliza la reproducción de experiencias priorizadas, que aprende de experiencias con un alto error de diferencia temporal (TD) y evita el muestreo uniforme de transiciones almacenadas durante el entrenamiento. Esto también permite priorizar experiencias de alta recompensa (por ejemplo, alcanzar un objetivo), lo que ayuda al agente a redescubrir estos estados valiosos y mejorar el aprendizaje. Además, se adopta la regularización L2 que fomenta pesos más pequeños para valores Q más estables y suaves, con el fin de reducir las selecciones de acciones erráticas y promover trayectorias de vuelo más suaves para el UAV. Finalmente, se presenta el rendimiento del método propuesto y se compara exhaustivamente con el DQN tradicional, demostrando su superior efectividad.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro