Un algoritmo de aprendizaje impulsado por un currículo diverso mejorado por RNN basado en el aprendizaje por refuerzo profundo para POMDPs con experiencia limitada

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un algoritmo de aprendizaje impulsado por un currículo diverso mejorado por RNN basado en el aprendizaje por refuerzo profundo para POMDPs con experiencia limitada

Autores: Li, Ke; Zhang, Kun; Wei, Ziqi; Piao, Haiyin; Yuan, Binlin; Wang, Boxuan; Cheng, Jiangbo

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Un algoritmo de aprendizaje impulsado por un currículo diverso mejorado por RNN basado en el aprendizaje por refuerzo profundo para POMDPs con experiencia limitada

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vuelo autónomo

Vehículos aéreos no tripulados

Aprendizaje profundo por refuerzo

Entornos dinámicos

Algoritmo de extremo a extremo

Redes de políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El vuelo autónomo es una capacidad crítica para los vehículos aéreos no tripulados (VANT), lo que permite aplicaciones en la protección de la vida silvestre y las plantas, la inspección de infraestructuras, la búsqueda y rescate, y otras misiones complejas. Aunque algunos métodos basados en el aprendizaje han logrado un progreso considerable, los algoritmos tradicionales aún enfrentan desafíos en el mundo real, debido a la naturaleza parcialmente observable de los entornos y la experiencia limitada respecto a las propiedades de entornos dinámicos desconocidos donde las amenazas y los objetivos son móviles e impredecibles. Para abordar estas dificultades, es necesario lograr una guía autónoma para los VANT que realicen misiones de largo alcance en entornos dinámicos (LRGDE), y desarrollar un nuevo algoritmo de extremo a extremo que pueda superar la observabilidad parcial bajo transiciones de estado limitadas. En este artículo, proponemos un Algoritmo de Aprendizaje Impulsado por un Currículo Diverso Mejorado por RNN (REDCRL) basado en el aprendizaje por refuerzo profundo. Modificamos la estructura de las redes actor-crítico tradicionales e introducimos Bi-LSTM en las redes de políticas (denominadas Redes de Políticas Modificadas por Bi-LSTM (BLPN)) para aliviar la incompletitud de la observación. Además, para aprovechar plenamente el valor potencial de los datos y mitigar el problema de muestras insuficientes, desarrollamos un método de Repetición de Experiencia de Evaluación de Múltiples Características Adaptativas (AMFER) para remodelar el proceso de construcción y muestreo del buffer de repetición de experiencias. Además, se adopta el algoritmo de Gradiente Político Determinista Profundo Doble Retrasado (TD3) para optimizar las políticas de decisión de maniobra de los VANT. En comparación con los algoritmos tradicionales, el algoritmo propuesto puede acelerar la convergencia de políticas y mejorar el rendimiento de la política entrenada.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro