Deep Dyna-Q para un Aprendizaje Rápido y una Mejora en el Logro de Formación en Transporte Cooperativo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Deep Dyna-Q para un Aprendizaje Rápido y una Mejora en el Logro de Formación en Transporte Cooperativo

Autores: Budiyanto, Almira; Matsunaga, Nobutomo

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Deep Dyna-Q para un Aprendizaje Rápido y una Mejora en el Logro de Formación en Transporte Cooperativo

Categoría

Procesos industriales

Subcategoría

Automatización industrial

Palabras clave

Investigación académica

Mitigación de desastres

Industria

Transporte

Sistema multiagente cooperativo

Control de formación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones

Hoy en día, la investigación académica, la mitigación de desastres, la industria y el transporte aplican el concepto de multiagente cooperativo. Un sistema multiagente cooperativo es un sistema multiagente que trabaja en conjunto para resolver problemas o maximizar la utilidad. Las características esenciales del control de formación son cómo los múltiples agentes pueden alcanzar el punto deseado mientras mantienen su posición en la formación según las condiciones dinámicas y el entorno. Un sistema multiagente cooperativo está estrechamente relacionado con el problema del cambio de formación. Es necesario cambiar la disposición de múltiples agentes de acuerdo con las condiciones ambientales, como al evitar obstáculos, aplicar diferentes tamaños y formas de pistas, y mover objetos de transporte de diferentes tamaños y formas. El aprendizaje por refuerzo es un buen método para aplicar en un entorno de cambio de formación. Por otro lado, el complejo proceso de control de formación requiere un largo tiempo de aprendizaje. Este artículo propone utilizar el algoritmo Deep Dyna-Q para acelerar el proceso de aprendizaje mientras mejora la tasa de logro de la formación ajustando los parámetros del algoritmo Deep Dyna-Q. A pesar de que el algoritmo Deep Dyna-Q se ha utilizado en muchas aplicaciones, no se ha aplicado en un experimento real. La contribución de este artículo es la aplicación del algoritmo Deep Dyna-Q en el control de formación tanto en simulaciones como en experimentos reales. Este estudio implementa con éxito el método propuesto e investiga el control de formación en simulaciones y experimentos reales. En los experimentos reales, se utilizó el robot Nexus con un sistema operativo de robot (ROS). Para confirmar la comunicación entre la PC y los robots, el procesamiento de la cámara y el controlador de motor, las velocidades de la simulación se dieron directamente a los robots. Las simulaciones pudieron proporcionar los mismos puntos de objetivo que los experimentos reales, por lo que los resultados de la simulación se acercan a los resultados experimentales reales. La tasa de descuento y los valores de la tasa de aprendizaje afectaron la tasa de logro del cambio de formación, el número de colisiones entre agentes y las colisiones entre agentes y objetos de transporte. Para la comparación de la tasa de aprendizaje, DDQ (0.01) superó consistentemente a DQN. DQN obtuvo la recompensa máxima de -170 en aproximadamente 130,000 episodios, mientras que DDQ (0.01) pudo alcanzar este valor en 58,000 episodios y logró una recompensa máxima de -160. La aplicación de un MEC (compensador de error del modelo) en el experimento real redujo con éxito el movimiento de error de los robots, de modo que los robots pudieron producir el cambio de formación de manera adecuada.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro