Aprendizaje por Refuerzo Difuso y Aprendizaje por Transferencia de Currículo para Micromanejo en Confrontación Multi-Robot

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje por Refuerzo Difuso y Aprendizaje por Transferencia de Currículo para Micromanejo en Confrontación Multi-Robot

Autores: Hu, Chunyang; Xu, Meng

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Aprendizaje por Refuerzo Difuso y Aprendizaje por Transferencia de Currículo para Micromanejo en Confrontación Multi-Robot

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Simuladores

Algoritmos

Aprendizaje por refuerzo

Sistema de toma de decisiones

RL multiagente

Aprendizaje por transferencia de currículo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La confrontación entre múltiples robots en simuladores basados en física es una tarea compleja y que consume mucho tiempo, pero se requieren simuladores para evaluar el rendimiento de los algoritmos avanzados. Recientemente, algunos algoritmos avanzados han logrado producir niveles considerablemente complejos en el contexto del sistema de confrontación de robots cuando los agentes se enfrentan a múltiples oponentes. Mientras tanto, el sistema actual de toma de decisiones en confrontaciones sufre dificultades en la optimización y la generalización. En este artículo, se aplican un aprendizaje por refuerzo difuso (RL) y el aprendizaje por transferencia curricular a la micromanagement para el sistema de confrontación de robots. En primer lugar, se diseña un Q-learning mejorado en el proceso de toma de decisiones semi-Markov para entrenar al agente y se define un modelo de RL eficiente para evitar la maldición de la dimensionalidad. En segundo lugar, se propone un algoritmo de RL multiagente con compartición de parámetros para entrenar a los agentes. Utilizamos una red neuronal con aceleración de momento adaptativa como un aproximador de funciones para estimar la función estado-acción. Luego, se utiliza un método de lógica difusa para regular la tasa de aprendizaje del RL. En tercer lugar, se utiliza un método de aprendizaje por transferencia curricular para extender el modelo de RL a escenarios más difíciles, lo que garantiza la generalización del sistema de toma de decisiones. Los resultados experimentales muestran que el método propuesto es efectivo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro