Un enfoque de Aprendizaje por Refuerzo basado en la enmienda automática de políticas para la asignación de tareas multi-AUV en corrientes oceánicas
Autores: Ding, Cheng; Zheng, Zhi
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un enfoque de Aprendizaje por Refuerzo basado en la enmienda automática de políticas para la asignación de tareas multi-AUV en corrientes oceánicas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos submarinos autónomos
Asignación de tareas
Aprendizaje por refuerzo
Entorno de corrientes oceánicas
Algoritmo de enmienda de políticas
Resultados de simulación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En este artículo, se estudia el problema de asignación de tareas (TA) de múltiples vehículos autónomos submarinos (AUV) en un entorno de corriente oceánica basado en un nuevo enfoque de aprendizaje por refuerzo. Primero, se establece el entorno de corriente oceánica, incluyendo dirección e intensidad, y se diseña una función de recompensa, en la que se requiere que los AUV consideren la corriente oceánica, la urgencia de la tarea y las restricciones de energía para encontrar la estrategia óptima de TA. Luego, se propone un algoritmo de enmienda de políticas automático (APAA) para resolver el inconveniente de la lenta convergencia en el aprendizaje por refuerzo (RL). En el APAA, se registran las secuencias de tareas con mayor recompensa acumulativa del equipo (TCR) para construir una matriz de secuencia de tareas (TSM). Después, se utilizan el TCR, la recompensa de subtarea (SR) y la entropía para evaluar la TSM y generar una probabilidad de enmienda, que ajusta la distribución de acciones para aumentar las posibilidades de elegir aquellas acciones más valiosas. Finalmente, se proporcionan los resultados de la simulación para verificar la efectividad del enfoque propuesto. El rendimiento de convergencia del APAA también es mejor que el de DDQN, PER y PPO-Clip.
Descripción
En este artículo, se estudia el problema de asignación de tareas (TA) de múltiples vehículos autónomos submarinos (AUV) en un entorno de corriente oceánica basado en un nuevo enfoque de aprendizaje por refuerzo. Primero, se establece el entorno de corriente oceánica, incluyendo dirección e intensidad, y se diseña una función de recompensa, en la que se requiere que los AUV consideren la corriente oceánica, la urgencia de la tarea y las restricciones de energía para encontrar la estrategia óptima de TA. Luego, se propone un algoritmo de enmienda de políticas automático (APAA) para resolver el inconveniente de la lenta convergencia en el aprendizaje por refuerzo (RL). En el APAA, se registran las secuencias de tareas con mayor recompensa acumulativa del equipo (TCR) para construir una matriz de secuencia de tareas (TSM). Después, se utilizan el TCR, la recompensa de subtarea (SR) y la entropía para evaluar la TSM y generar una probabilidad de enmienda, que ajusta la distribución de acciones para aumentar las posibilidades de elegir aquellas acciones más valiosas. Finalmente, se proporcionan los resultados de la simulación para verificar la efectividad del enfoque propuesto. El rendimiento de convergencia del APAA también es mejor que el de DDQN, PER y PPO-Clip.