Aprendizaje por Transferencia Acelerado para el Cambio de Formación en Transporte Cooperativo a través de SDPA-MAPPO (Optimización de Políticas Proximales Multi-Agente con Atención de Producto Punto Escalado)
Autores: Budiyanto, Almira; Azetsu, Keisuke; Matsunaga, Nobutomo
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendizaje por Transferencia Acelerado para el Cambio de Formación en Transporte Cooperativo a través de SDPA-MAPPO (Optimización de Políticas Proximales Multi-Agente con Atención de Producto Punto Escalado)
Categoría
Procesos industriales
Subcategoría
Automatización industrial
Palabras clave
Transporte cooperativo
Aprendizaje por refuerzo profundo
Cambios de formación
Método MADDPG
Atención de producto punto escalado
Aprendizaje por transferencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Un método para el transporte cooperativo, que requiere un cambio de formación en un entorno de viaje, está ganando interés. Se utiliza el aprendizaje profundo por refuerzo en los cambios de formación para casos de múltiples robots. El método MADDPG (Gradiente de Política Determinista Profunda Multi-Agente) se utiliza popularmente en entornos reconocidos. Por otro lado, puede ser necesario volver a aprender en circunstancias no reconocidas utilizando el método MADDPG. Aunque se ha aplicado el desarrollo de MADDPG utilizando aprendizaje basado en modelos y aprendizaje por imitación para reducir el tiempo de aprendizaje, no está claro cómo se transfieren los resultados del aprendizaje cuando cambia el número de robots. Por ejemplo, en el método GASIL-MADDPG (Aprendizaje de auto-imitación adversarial generativa y Gradiente de Política Determinista Profunda Multi-Agente), no se sabe cómo se pueden transferir los resultados del entrenamiento de tres robots a las redes neuronales de cuatro robots. Hoy en día, la Atención por Producto Escalado (SDPA) ha atraído atención y tiene un gran impacto por su velocidad y precisión en el procesamiento del lenguaje natural. Cuando el aprendizaje por transferencia se combina con un cálculo rápido, la eficiencia del re-aprendizaje a nivel de borde mejora. Este documento propone un algoritmo de cambio de formación que permite una transferencia de conocimiento multi-robot fácil y rápida utilizando SDPA combinada con MAPPO (Optimización Proximal de Política Multi-Agente), en comparación con otros métodos. Este algoritmo aplica SDPA al aprendizaje de formación multi-robot y realiza un aprendizaje rápido al transferir el conocimiento adquirido de los cambios de formación a un cierto número de robots. El algoritmo propuesto se verifica simulando el cambio de formación de robots y logró alcanzar capacidades de aprendizaje de alta velocidad dramáticas. El SDPA-MAPPO propuesto (Atención por Producto Escalado - Optimización Proximal de Política Multi-Agente) aprendió 20.83 veces más rápido que el método Deep Dyna-Q. Además, utilizando el aprendizaje por transferencia de un caso de tres robots a cinco robots, el método muestra que el tiempo de aprendizaje puede reducirse en aproximadamente un 56.57 por ciento. Se elige un escenario de tres robots a cinco robots basado en el número de robots que se utilizan a menudo en robots cooperativos.
Descripción
Un método para el transporte cooperativo, que requiere un cambio de formación en un entorno de viaje, está ganando interés. Se utiliza el aprendizaje profundo por refuerzo en los cambios de formación para casos de múltiples robots. El método MADDPG (Gradiente de Política Determinista Profunda Multi-Agente) se utiliza popularmente en entornos reconocidos. Por otro lado, puede ser necesario volver a aprender en circunstancias no reconocidas utilizando el método MADDPG. Aunque se ha aplicado el desarrollo de MADDPG utilizando aprendizaje basado en modelos y aprendizaje por imitación para reducir el tiempo de aprendizaje, no está claro cómo se transfieren los resultados del aprendizaje cuando cambia el número de robots. Por ejemplo, en el método GASIL-MADDPG (Aprendizaje de auto-imitación adversarial generativa y Gradiente de Política Determinista Profunda Multi-Agente), no se sabe cómo se pueden transferir los resultados del entrenamiento de tres robots a las redes neuronales de cuatro robots. Hoy en día, la Atención por Producto Escalado (SDPA) ha atraído atención y tiene un gran impacto por su velocidad y precisión en el procesamiento del lenguaje natural. Cuando el aprendizaje por transferencia se combina con un cálculo rápido, la eficiencia del re-aprendizaje a nivel de borde mejora. Este documento propone un algoritmo de cambio de formación que permite una transferencia de conocimiento multi-robot fácil y rápida utilizando SDPA combinada con MAPPO (Optimización Proximal de Política Multi-Agente), en comparación con otros métodos. Este algoritmo aplica SDPA al aprendizaje de formación multi-robot y realiza un aprendizaje rápido al transferir el conocimiento adquirido de los cambios de formación a un cierto número de robots. El algoritmo propuesto se verifica simulando el cambio de formación de robots y logró alcanzar capacidades de aprendizaje de alta velocidad dramáticas. El SDPA-MAPPO propuesto (Atención por Producto Escalado - Optimización Proximal de Política Multi-Agente) aprendió 20.83 veces más rápido que el método Deep Dyna-Q. Además, utilizando el aprendizaje por transferencia de un caso de tres robots a cinco robots, el método muestra que el tiempo de aprendizaje puede reducirse en aproximadamente un 56.57 por ciento. Se elige un escenario de tres robots a cinco robots basado en el número de robots que se utilizan a menudo en robots cooperativos.