logo móvil
Contáctanos

Un enfoque de Aprendizaje por Refuerzo basado en la enmienda automática de políticas para la asignación de tareas multi-AUV en corrientes oceánicas

Autores: Ding, Cheng; Zheng, Zhi

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un enfoque de Aprendizaje por Refuerzo basado en la enmienda automática de políticas para la asignación de tareas multi-AUV en corrientes oceánicas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos submarinos autónomos
Asignación de tareas
Aprendizaje por refuerzo
Entorno de corrientes oceánicas
Algoritmo de enmienda de políticas
Resultados de simulación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En este artículo, se estudia el problema de asignación de tareas (TA) de múltiples vehículos autónomos submarinos (AUV) en un entorno de corriente oceánica basado en un nuevo enfoque de aprendizaje por refuerzo. Primero, se establece el entorno de corriente oceánica, incluyendo dirección e intensidad, y se diseña una función de recompensa, en la que se requiere que los AUV consideren la corriente oceánica, la urgencia de la tarea y las restricciones de energía para encontrar la estrategia óptima de TA. Luego, se propone un algoritmo de enmienda de políticas automático (APAA) para resolver el inconveniente de la lenta convergencia en el aprendizaje por refuerzo (RL). En el APAA, se registran las secuencias de tareas con mayor recompensa acumulativa del equipo (TCR) para construir una matriz de secuencia de tareas (TSM). Después, se utilizan el TCR, la recompensa de subtarea (SR) y la entropía para evaluar la TSM y generar una probabilidad de enmienda, que ajusta la distribución de acciones para aumentar las posibilidades de elegir aquellas acciones más valiosas. Finalmente, se proporcionan los resultados de la simulación para verificar la efectividad del enfoque propuesto. El rendimiento de convergencia del APAA también es mejor que el de DDQN, PER y PPO-Clip.

Otros recursos que podrían interesarte

Temas Virtualpro