logo móvil
Contáctanos

Adaptativo control distribuido para formación líder-seguidor basado en un algoritmo recurrente SAC

Autores: Li, Mingfei; Liu, Haibin; Xie, Feng; Huang, He

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Adaptativo control distribuido para formación líder-seguidor basado en un algoritmo recurrente SAC


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Adaptativo
Distribuido
Recurrente
Control de formación
Aprendizaje por refuerzo
Normalización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
Este estudio propone un novedoso método de control SAC (Soft Actor-Critic) recurrente distribuido adaptativo para abordar el problema de control de formación líder-seguidor de robots móviles omnidireccionales. Nuestro método elimina con éxito la dependencia del estado completo del líder y logra la tarea de formación utilizando únicamente la posición entre robots. Además, desarrollamos un nuevo marco de aprendizaje por refuerzo SAC recurrente que garantiza que el controlador muestre buenas características transitorias y de estado estable para lograr un rendimiento de control excepcional. También presentamos un búfer de reproducción de memoria basado en episodios y enfoques de muestreo, junto con una función de recompensa normalizada única, que acelera el marco de formación de aprendizaje por refuerzo SAC recurrente para converger rápidamente y recibir incentivos consistentes en diversas tareas líder-seguidor. Esto facilita un mejor aprendizaje y adaptación a los requisitos de la tarea de formación en diferentes escenarios. Además, para reforzar la capacidad de generalización de nuestro método, normalizamos el espacio de estado, eliminando efectivamente las diferencias entre las tareas de formación de diferentes formas. Experimentos con diferentes formas de formación líder-seguidor en el simulador Gazebo logran excelentes resultados, validando la eficacia de nuestro método. Experimentos comparativos con controladores tradicionales PID y de red comunes demuestran que nuestro método logra una convergencia más rápida y una mayor robustez. Estos resultados de simulación brindan un sólido respaldo a nuestro estudio y demuestran el potencial y la fiabilidad de nuestro método para resolver problemas del mundo real.

Otros recursos que podrían interesarte

Temas Virtualpro