Un enfoque de Aprendizaje por Refuerzo basado en la enmienda automática de políticas para la asignación de tareas multi-AUV en corrientes oceánicas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un enfoque de Aprendizaje por Refuerzo basado en la enmienda automática de políticas para la asignación de tareas multi-AUV en corrientes oceánicas

Autores: Ding, Cheng; Zheng, Zhi

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Un enfoque de Aprendizaje por Refuerzo basado en la enmienda automática de políticas para la asignación de tareas multi-AUV en corrientes oceánicas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos submarinos autónomos

Asignación de tareas

Aprendizaje por refuerzo

Entorno de corrientes oceánicas

Algoritmo de enmienda de políticas

Resultados de simulación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En este artículo, se estudia el problema de asignación de tareas (TA) de múltiples vehículos autónomos submarinos (AUV) en un entorno de corriente oceánica basado en un nuevo enfoque de aprendizaje por refuerzo. Primero, se establece el entorno de corriente oceánica, incluyendo dirección e intensidad, y se diseña una función de recompensa, en la que se requiere que los AUV consideren la corriente oceánica, la urgencia de la tarea y las restricciones de energía para encontrar la estrategia óptima de TA. Luego, se propone un algoritmo de enmienda de políticas automático (APAA) para resolver el inconveniente de la lenta convergencia en el aprendizaje por refuerzo (RL). En el APAA, se registran las secuencias de tareas con mayor recompensa acumulativa del equipo (TCR) para construir una matriz de secuencia de tareas (TSM). Después, se utilizan el TCR, la recompensa de subtarea (SR) y la entropía para evaluar la TSM y generar una probabilidad de enmienda, que ajusta la distribución de acciones para aumentar las posibilidades de elegir aquellas acciones más valiosas. Finalmente, se proporcionan los resultados de la simulación para verificar la efectividad del enfoque propuesto. El rendimiento de convergencia del APAA también es mejor que el de DDQN, PER y PPO-Clip.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro