logo móvil
Contáctanos

Aprendizaje por Transferencia Acelerado para el Cambio de Formación en Transporte Cooperativo a través de SDPA-MAPPO (Optimización de Políticas Proximales Multi-Agente con Atención de Producto Punto Escalado)

Autores: Budiyanto, Almira; Azetsu, Keisuke; Matsunaga, Nobutomo

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Aprendizaje por Transferencia Acelerado para el Cambio de Formación en Transporte Cooperativo a través de SDPA-MAPPO (Optimización de Políticas Proximales Multi-Agente con Atención de Producto Punto Escalado)


Categoría

Procesos industriales

Subcategoría

Automatización industrial

Palabras clave

Transporte cooperativo
Aprendizaje por refuerzo profundo
Cambios de formación
Método MADDPG
Atención de producto punto escalado
Aprendizaje por transferencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Un método para el transporte cooperativo, que requiere un cambio de formación en un entorno de viaje, está ganando interés. Se utiliza el aprendizaje profundo por refuerzo en los cambios de formación para casos de múltiples robots. El método MADDPG (Gradiente de Política Determinista Profunda Multi-Agente) se utiliza popularmente en entornos reconocidos. Por otro lado, puede ser necesario volver a aprender en circunstancias no reconocidas utilizando el método MADDPG. Aunque se ha aplicado el desarrollo de MADDPG utilizando aprendizaje basado en modelos y aprendizaje por imitación para reducir el tiempo de aprendizaje, no está claro cómo se transfieren los resultados del aprendizaje cuando cambia el número de robots. Por ejemplo, en el método GASIL-MADDPG (Aprendizaje de auto-imitación adversarial generativa y Gradiente de Política Determinista Profunda Multi-Agente), no se sabe cómo se pueden transferir los resultados del entrenamiento de tres robots a las redes neuronales de cuatro robots. Hoy en día, la Atención por Producto Escalado (SDPA) ha atraído atención y tiene un gran impacto por su velocidad y precisión en el procesamiento del lenguaje natural. Cuando el aprendizaje por transferencia se combina con un cálculo rápido, la eficiencia del re-aprendizaje a nivel de borde mejora. Este documento propone un algoritmo de cambio de formación que permite una transferencia de conocimiento multi-robot fácil y rápida utilizando SDPA combinada con MAPPO (Optimización Proximal de Política Multi-Agente), en comparación con otros métodos. Este algoritmo aplica SDPA al aprendizaje de formación multi-robot y realiza un aprendizaje rápido al transferir el conocimiento adquirido de los cambios de formación a un cierto número de robots. El algoritmo propuesto se verifica simulando el cambio de formación de robots y logró alcanzar capacidades de aprendizaje de alta velocidad dramáticas. El SDPA-MAPPO propuesto (Atención por Producto Escalado - Optimización Proximal de Política Multi-Agente) aprendió 20.83 veces más rápido que el método Deep Dyna-Q. Además, utilizando el aprendizaje por transferencia de un caso de tres robots a cinco robots, el método muestra que el tiempo de aprendizaje puede reducirse en aproximadamente un 56.57 por ciento. Se elige un escenario de tres robots a cinco robots basado en el número de robots que se utilizan a menudo en robots cooperativos.

Otros recursos que podrían interesarte

Temas Virtualpro