Sistemas avanzados de doble capa basados en A3C en la planificación de rutas en tiempo real
Autores: Lee, Dajeong; Kim, Junoh; Cho, Kyungeun; Sung, Yunsick
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Sistemas avanzados de doble capa basados en A3C en la planificación de rutas en tiempo real
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Propuesto
De doble capa
Sistema multiagente
Tiempo de aprendizaje
Espacio de estado
A3C
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
En este documento, proponemos un sistema multiagente avanzado de doble capa para reducir el tiempo de aprendizaje, expresando un espacio de estado utilizando una cuadrícula 2D. Este sistema se basa en sistemas asincrónicos de actor-crítico de ventaja (A3C) y reduce el espacio de estado que los agentes necesitan considerar expresando jerárquicamente un espacio de cuadrícula 2D y determinando acciones. Específicamente, el espacio de estado se expresa en las capas superior e inferior. Basándonos en los resultados de aprendizaje utilizando A3C en la capa inferior, la capa superior toma decisiones sin aprendizaje adicional y, en consecuencia, se puede reducir el tiempo total de aprendizaje. Nuestro método fue verificado experimentalmente utilizando un simulador virtual de vehículo autónomo de superficie. Redujo el tiempo de aprendizaje necesario para alcanzar una tasa de logro del objetivo del 90% en un 7.1% en comparación con el A3C de doble capa convencional. Además, el logro del objetivo mediante el método propuesto fue un 18.86% mayor que el del A3C de doble capa tradicional durante más de 20,000 episodios de aprendizaje.
Descripción
En este documento, proponemos un sistema multiagente avanzado de doble capa para reducir el tiempo de aprendizaje, expresando un espacio de estado utilizando una cuadrícula 2D. Este sistema se basa en sistemas asincrónicos de actor-crítico de ventaja (A3C) y reduce el espacio de estado que los agentes necesitan considerar expresando jerárquicamente un espacio de cuadrícula 2D y determinando acciones. Específicamente, el espacio de estado se expresa en las capas superior e inferior. Basándonos en los resultados de aprendizaje utilizando A3C en la capa inferior, la capa superior toma decisiones sin aprendizaje adicional y, en consecuencia, se puede reducir el tiempo total de aprendizaje. Nuestro método fue verificado experimentalmente utilizando un simulador virtual de vehículo autónomo de superficie. Redujo el tiempo de aprendizaje necesario para alcanzar una tasa de logro del objetivo del 90% en un 7.1% en comparación con el A3C de doble capa convencional. Además, el logro del objetivo mediante el método propuesto fue un 18.86% mayor que el del A3C de doble capa tradicional durante más de 20,000 episodios de aprendizaje.