Aprendiendo a utilizar la curiosidad: un nuevo enfoque de aprendizaje de currículo automático para Deep RL
Autores: Lin, Zeyang; Lai, Jun; Chen, Xiliang; Cao, Lei; Wang, Jun
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendiendo a utilizar la curiosidad: un nuevo enfoque de aprendizaje de currículo automático para Deep RL
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje por refuerzo
Aprendizaje automático de currículo
Sistema multiagente
Entorno de recompensa escasa
Velocidad de convergencia
Modelo de curiosidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
En los últimos años, los algoritmos de aprendizaje por refuerzo basados en el aprendizaje automático del currículo han sido cada vez más aplicados a problemas de sistemas multiagente. Sin embargo, en entornos de recompensa escasa, los agentes de aprendizaje por refuerzo apenas reciben comentarios del entorno durante todo el proceso de entrenamiento, lo que conduce a una disminución en la velocidad de convergencia y la eficiencia de aprendizaje del algoritmo de aprendizaje por refuerzo del currículo. Basado en el algoritmo de aprendizaje automático del currículo, este artículo propone un método de aprendizaje por refuerzo del currículo basado en el modelo de curiosidad (CMCL). El método divide los criterios de clasificación del currículo en error de diferencia temporal y recompensa de curiosidad, utiliza el método de validación cruzada K-fold para evaluar la prioridad de dificultad de las muestras de tarea, utiliza el Módulo de Curiosidad Intrínseca (ICM) para evaluar la prioridad de curiosidad de las muestras de tarea y utiliza el factor del currículo para ajustar la probabilidad de aprendizaje de las muestras de tarea. Este estudio compara el algoritmo CMCL con otros algoritmos de referencia en entornos cooperativos-competitivos, y los resultados de la simulación experimental muestran que el método CMCL puede mejorar el rendimiento de entrenamiento y la robustez de los algoritmos de aprendizaje profundo por refuerzo multiagente.
Descripción
En los últimos años, los algoritmos de aprendizaje por refuerzo basados en el aprendizaje automático del currículo han sido cada vez más aplicados a problemas de sistemas multiagente. Sin embargo, en entornos de recompensa escasa, los agentes de aprendizaje por refuerzo apenas reciben comentarios del entorno durante todo el proceso de entrenamiento, lo que conduce a una disminución en la velocidad de convergencia y la eficiencia de aprendizaje del algoritmo de aprendizaje por refuerzo del currículo. Basado en el algoritmo de aprendizaje automático del currículo, este artículo propone un método de aprendizaje por refuerzo del currículo basado en el modelo de curiosidad (CMCL). El método divide los criterios de clasificación del currículo en error de diferencia temporal y recompensa de curiosidad, utiliza el método de validación cruzada K-fold para evaluar la prioridad de dificultad de las muestras de tarea, utiliza el Módulo de Curiosidad Intrínseca (ICM) para evaluar la prioridad de curiosidad de las muestras de tarea y utiliza el factor del currículo para ajustar la probabilidad de aprendizaje de las muestras de tarea. Este estudio compara el algoritmo CMCL con otros algoritmos de referencia en entornos cooperativos-competitivos, y los resultados de la simulación experimental muestran que el método CMCL puede mejorar el rendimiento de entrenamiento y la robustez de los algoritmos de aprendizaje profundo por refuerzo multiagente.