logo móvil
Contáctanos

Un algoritmo de aprendizaje impulsado por un currículo diverso mejorado por RNN basado en el aprendizaje por refuerzo profundo para POMDPs con experiencia limitada

Autores: Li, Ke; Zhang, Kun; Wei, Ziqi; Piao, Haiyin; Yuan, Binlin; Wang, Boxuan; Cheng, Jiangbo

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Un algoritmo de aprendizaje impulsado por un currículo diverso mejorado por RNN basado en el aprendizaje por refuerzo profundo para POMDPs con experiencia limitada


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vuelo autónomo
Vehículos aéreos no tripulados
Aprendizaje profundo por refuerzo
Entornos dinámicos
Algoritmo de extremo a extremo
Redes de políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El vuelo autónomo es una capacidad crítica para los vehículos aéreos no tripulados (VANT), lo que permite aplicaciones en la protección de la vida silvestre y las plantas, la inspección de infraestructuras, la búsqueda y rescate, y otras misiones complejas. Aunque algunos métodos basados en el aprendizaje han logrado un progreso considerable, los algoritmos tradicionales aún enfrentan desafíos en el mundo real, debido a la naturaleza parcialmente observable de los entornos y la experiencia limitada respecto a las propiedades de entornos dinámicos desconocidos donde las amenazas y los objetivos son móviles e impredecibles. Para abordar estas dificultades, es necesario lograr una guía autónoma para los VANT que realicen misiones de largo alcance en entornos dinámicos (LRGDE), y desarrollar un nuevo algoritmo de extremo a extremo que pueda superar la observabilidad parcial bajo transiciones de estado limitadas. En este artículo, proponemos un Algoritmo de Aprendizaje Impulsado por un Currículo Diverso Mejorado por RNN (REDCRL) basado en el aprendizaje por refuerzo profundo. Modificamos la estructura de las redes actor-crítico tradicionales e introducimos Bi-LSTM en las redes de políticas (denominadas Redes de Políticas Modificadas por Bi-LSTM (BLPN)) para aliviar la incompletitud de la observación. Además, para aprovechar plenamente el valor potencial de los datos y mitigar el problema de muestras insuficientes, desarrollamos un método de Repetición de Experiencia de Evaluación de Múltiples Características Adaptativas (AMFER) para remodelar el proceso de construcción y muestreo del buffer de repetición de experiencias. Además, se adopta el algoritmo de Gradiente Político Determinista Profundo Doble Retrasado (TD3) para optimizar las políticas de decisión de maniobra de los VANT. En comparación con los algoritmos tradicionales, el algoritmo propuesto puede acelerar la convergencia de políticas y mejorar el rendimiento de la política entrenada.

Otros recursos que podrían interesarte

Temas Virtualpro