Deep Dyna-Q para un Aprendizaje Rápido y una Mejora en el Logro de Formación en Transporte Cooperativo
Autores: Budiyanto, Almira; Matsunaga, Nobutomo
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Deep Dyna-Q para un Aprendizaje Rápido y una Mejora en el Logro de Formación en Transporte Cooperativo
Categoría
Procesos industriales
Subcategoría
Automatización industrial
Palabras clave
Investigación académica
Mitigación de desastres
Industria
Transporte
Sistema multiagente cooperativo
Control de formación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Hoy en día, la investigación académica, la mitigación de desastres, la industria y el transporte aplican el concepto de multiagente cooperativo. Un sistema multiagente cooperativo es un sistema multiagente que trabaja en conjunto para resolver problemas o maximizar la utilidad. Las características esenciales del control de formación son cómo los múltiples agentes pueden alcanzar el punto deseado mientras mantienen su posición en la formación según las condiciones dinámicas y el entorno. Un sistema multiagente cooperativo está estrechamente relacionado con el problema del cambio de formación. Es necesario cambiar la disposición de múltiples agentes de acuerdo con las condiciones ambientales, como al evitar obstáculos, aplicar diferentes tamaños y formas de pistas, y mover objetos de transporte de diferentes tamaños y formas. El aprendizaje por refuerzo es un buen método para aplicar en un entorno de cambio de formación. Por otro lado, el complejo proceso de control de formación requiere un largo tiempo de aprendizaje. Este artículo propone utilizar el algoritmo Deep Dyna-Q para acelerar el proceso de aprendizaje mientras mejora la tasa de logro de la formación ajustando los parámetros del algoritmo Deep Dyna-Q. A pesar de que el algoritmo Deep Dyna-Q se ha utilizado en muchas aplicaciones, no se ha aplicado en un experimento real. La contribución de este artículo es la aplicación del algoritmo Deep Dyna-Q en el control de formación tanto en simulaciones como en experimentos reales. Este estudio implementa con éxito el método propuesto e investiga el control de formación en simulaciones y experimentos reales. En los experimentos reales, se utilizó el robot Nexus con un sistema operativo de robot (ROS). Para confirmar la comunicación entre la PC y los robots, el procesamiento de la cámara y el controlador de motor, las velocidades de la simulación se dieron directamente a los robots. Las simulaciones pudieron proporcionar los mismos puntos de objetivo que los experimentos reales, por lo que los resultados de la simulación se acercan a los resultados experimentales reales. La tasa de descuento y los valores de la tasa de aprendizaje afectaron la tasa de logro del cambio de formación, el número de colisiones entre agentes y las colisiones entre agentes y objetos de transporte. Para la comparación de la tasa de aprendizaje, DDQ (0.01) superó consistentemente a DQN. DQN obtuvo la recompensa máxima de -170 en aproximadamente 130,000 episodios, mientras que DDQ (0.01) pudo alcanzar este valor en 58,000 episodios y logró una recompensa máxima de -160. La aplicación de un MEC (compensador de error del modelo) en el experimento real redujo con éxito el movimiento de error de los robots, de modo que los robots pudieron producir el cambio de formación de manera adecuada.
Descripción
Hoy en día, la investigación académica, la mitigación de desastres, la industria y el transporte aplican el concepto de multiagente cooperativo. Un sistema multiagente cooperativo es un sistema multiagente que trabaja en conjunto para resolver problemas o maximizar la utilidad. Las características esenciales del control de formación son cómo los múltiples agentes pueden alcanzar el punto deseado mientras mantienen su posición en la formación según las condiciones dinámicas y el entorno. Un sistema multiagente cooperativo está estrechamente relacionado con el problema del cambio de formación. Es necesario cambiar la disposición de múltiples agentes de acuerdo con las condiciones ambientales, como al evitar obstáculos, aplicar diferentes tamaños y formas de pistas, y mover objetos de transporte de diferentes tamaños y formas. El aprendizaje por refuerzo es un buen método para aplicar en un entorno de cambio de formación. Por otro lado, el complejo proceso de control de formación requiere un largo tiempo de aprendizaje. Este artículo propone utilizar el algoritmo Deep Dyna-Q para acelerar el proceso de aprendizaje mientras mejora la tasa de logro de la formación ajustando los parámetros del algoritmo Deep Dyna-Q. A pesar de que el algoritmo Deep Dyna-Q se ha utilizado en muchas aplicaciones, no se ha aplicado en un experimento real. La contribución de este artículo es la aplicación del algoritmo Deep Dyna-Q en el control de formación tanto en simulaciones como en experimentos reales. Este estudio implementa con éxito el método propuesto e investiga el control de formación en simulaciones y experimentos reales. En los experimentos reales, se utilizó el robot Nexus con un sistema operativo de robot (ROS). Para confirmar la comunicación entre la PC y los robots, el procesamiento de la cámara y el controlador de motor, las velocidades de la simulación se dieron directamente a los robots. Las simulaciones pudieron proporcionar los mismos puntos de objetivo que los experimentos reales, por lo que los resultados de la simulación se acercan a los resultados experimentales reales. La tasa de descuento y los valores de la tasa de aprendizaje afectaron la tasa de logro del cambio de formación, el número de colisiones entre agentes y las colisiones entre agentes y objetos de transporte. Para la comparación de la tasa de aprendizaje, DDQ (0.01) superó consistentemente a DQN. DQN obtuvo la recompensa máxima de -170 en aproximadamente 130,000 episodios, mientras que DDQ (0.01) pudo alcanzar este valor en 58,000 episodios y logró una recompensa máxima de -160. La aplicación de un MEC (compensador de error del modelo) en el experimento real redujo con éxito el movimiento de error de los robots, de modo que los robots pudieron producir el cambio de formación de manera adecuada.