Adaptativo control distribuido para formación líder-seguidor basado en un algoritmo recurrente SAC

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Adaptativo control distribuido para formación líder-seguidor basado en un algoritmo recurrente SAC

Autores: Li, Mingfei; Liu, Haibin; Xie, Feng; Huang, He

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Adaptativo control distribuido para formación líder-seguidor basado en un algoritmo recurrente SAC

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Adaptativo

Distribuido

Recurrente

Control de formación

Aprendizaje por refuerzo

Normalización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

Este estudio propone un novedoso método de control SAC (Soft Actor-Critic) recurrente distribuido adaptativo para abordar el problema de control de formación líder-seguidor de robots móviles omnidireccionales. Nuestro método elimina con éxito la dependencia del estado completo del líder y logra la tarea de formación utilizando únicamente la posición entre robots. Además, desarrollamos un nuevo marco de aprendizaje por refuerzo SAC recurrente que garantiza que el controlador muestre buenas características transitorias y de estado estable para lograr un rendimiento de control excepcional. También presentamos un búfer de reproducción de memoria basado en episodios y enfoques de muestreo, junto con una función de recompensa normalizada única, que acelera el marco de formación de aprendizaje por refuerzo SAC recurrente para converger rápidamente y recibir incentivos consistentes en diversas tareas líder-seguidor. Esto facilita un mejor aprendizaje y adaptación a los requisitos de la tarea de formación en diferentes escenarios. Además, para reforzar la capacidad de generalización de nuestro método, normalizamos el espacio de estado, eliminando efectivamente las diferencias entre las tareas de formación de diferentes formas. Experimentos con diferentes formas de formación líder-seguidor en el simulador Gazebo logran excelentes resultados, validando la eficacia de nuestro método. Experimentos comparativos con controladores tradicionales PID y de red comunes demuestran que nuestro método logra una convergencia más rápida y una mayor robustez. Estos resultados de simulación brindan un sólido respaldo a nuestro estudio y demuestran el potencial y la fiabilidad de nuestro método para resolver problemas del mundo real.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro