Un algoritmo de aprendizaje impulsado por un currículo diverso mejorado por RNN basado en el aprendizaje por refuerzo profundo para POMDPs con experiencia limitada
Autores: Li, Ke; Zhang, Kun; Wei, Ziqi; Piao, Haiyin; Yuan, Binlin; Wang, Boxuan; Cheng, Jiangbo
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Un algoritmo de aprendizaje impulsado por un currículo diverso mejorado por RNN basado en el aprendizaje por refuerzo profundo para POMDPs con experiencia limitada
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vuelo autónomo
Vehículos aéreos no tripulados
Aprendizaje profundo por refuerzo
Entornos dinámicos
Algoritmo de extremo a extremo
Redes de políticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El vuelo autónomo es una capacidad crítica para los vehículos aéreos no tripulados (VANT), lo que permite aplicaciones en la protección de la vida silvestre y las plantas, la inspección de infraestructuras, la búsqueda y rescate, y otras misiones complejas. Aunque algunos métodos basados en el aprendizaje han logrado un progreso considerable, los algoritmos tradicionales aún enfrentan desafíos en el mundo real, debido a la naturaleza parcialmente observable de los entornos y la experiencia limitada respecto a las propiedades de entornos dinámicos desconocidos donde las amenazas y los objetivos son móviles e impredecibles. Para abordar estas dificultades, es necesario lograr una guía autónoma para los VANT que realicen misiones de largo alcance en entornos dinámicos (LRGDE), y desarrollar un nuevo algoritmo de extremo a extremo que pueda superar la observabilidad parcial bajo transiciones de estado limitadas. En este artículo, proponemos un Algoritmo de Aprendizaje Impulsado por un Currículo Diverso Mejorado por RNN (REDCRL) basado en el aprendizaje por refuerzo profundo. Modificamos la estructura de las redes actor-crítico tradicionales e introducimos Bi-LSTM en las redes de políticas (denominadas Redes de Políticas Modificadas por Bi-LSTM (BLPN)) para aliviar la incompletitud de la observación. Además, para aprovechar plenamente el valor potencial de los datos y mitigar el problema de muestras insuficientes, desarrollamos un método de Repetición de Experiencia de Evaluación de Múltiples Características Adaptativas (AMFER) para remodelar el proceso de construcción y muestreo del buffer de repetición de experiencias. Además, se adopta el algoritmo de Gradiente Político Determinista Profundo Doble Retrasado (TD3) para optimizar las políticas de decisión de maniobra de los VANT. En comparación con los algoritmos tradicionales, el algoritmo propuesto puede acelerar la convergencia de políticas y mejorar el rendimiento de la política entrenada.
Descripción
El vuelo autónomo es una capacidad crítica para los vehículos aéreos no tripulados (VANT), lo que permite aplicaciones en la protección de la vida silvestre y las plantas, la inspección de infraestructuras, la búsqueda y rescate, y otras misiones complejas. Aunque algunos métodos basados en el aprendizaje han logrado un progreso considerable, los algoritmos tradicionales aún enfrentan desafíos en el mundo real, debido a la naturaleza parcialmente observable de los entornos y la experiencia limitada respecto a las propiedades de entornos dinámicos desconocidos donde las amenazas y los objetivos son móviles e impredecibles. Para abordar estas dificultades, es necesario lograr una guía autónoma para los VANT que realicen misiones de largo alcance en entornos dinámicos (LRGDE), y desarrollar un nuevo algoritmo de extremo a extremo que pueda superar la observabilidad parcial bajo transiciones de estado limitadas. En este artículo, proponemos un Algoritmo de Aprendizaje Impulsado por un Currículo Diverso Mejorado por RNN (REDCRL) basado en el aprendizaje por refuerzo profundo. Modificamos la estructura de las redes actor-crítico tradicionales e introducimos Bi-LSTM en las redes de políticas (denominadas Redes de Políticas Modificadas por Bi-LSTM (BLPN)) para aliviar la incompletitud de la observación. Además, para aprovechar plenamente el valor potencial de los datos y mitigar el problema de muestras insuficientes, desarrollamos un método de Repetición de Experiencia de Evaluación de Múltiples Características Adaptativas (AMFER) para remodelar el proceso de construcción y muestreo del buffer de repetición de experiencias. Además, se adopta el algoritmo de Gradiente Político Determinista Profundo Doble Retrasado (TD3) para optimizar las políticas de decisión de maniobra de los VANT. En comparación con los algoritmos tradicionales, el algoritmo propuesto puede acelerar la convergencia de políticas y mejorar el rendimiento de la política entrenada.