Una Arquitectura Basada en Asesores para un Entrenamiento Eficiente en Muestras de Agentes de Navegación Autónoma con Aprendizaje por Refuerzo
Autores: Wijesinghe, Rukshan Darshana; Tissera, Dumindu; Vithanage, Mihira Kasun; Xavier, Alex; Fernando, Subha; Samarawickrama, Jayathu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Una Arquitectura Basada en Asesores para un Entrenamiento Eficiente en Muestras de Agentes de Navegación Autónoma con Aprendizaje por Refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Avances
Inteligencia artificial
Aprendizaje por refuerzo
Agentes
Complejidad de muestra
Aprendizaje basado en asesores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
Los recientes avances en inteligencia artificial han permitido que los agentes de aprendizaje por refuerzo (RL) superen el rendimiento humano en diversas tareas de juego. Sin embargo, a pesar del rendimiento de vanguardia demostrado por los algoritmos de RL sin modelo, estos sufren de alta complejidad de muestra. Por lo tanto, no es común encontrar sus aplicaciones en robótica, navegación autónoma y conducción autónoma, ya que reunir muchas muestras es impráctico en sistemas de hardware del mundo real. Por lo tanto, desarrollar algoritmos de aprendizaje eficientes en muestras para agentes de RL es crucial para desplegarlos en tareas del mundo real sin sacrificar el rendimiento. Este documento presenta un algoritmo de aprendizaje basado en un asesor, incorporando conocimiento previo en el entrenamiento al modificar el algoritmo de gradiente de política determinista profunda para reducir la complejidad de muestra. Además, proponemos un método efectivo para emplear un asesor en la recolección de datos para entrenar agentes de navegación autónoma para maniobrar plataformas físicas, minimizando el riesgo de colisión. Analizamos el rendimiento de nuestros métodos con el apoyo de simulaciones y configuraciones experimentales físicas. Los experimentos revelan que incorporar un asesor en la fase de entrenamiento reduce significativamente la complejidad de muestra sin comprometer el rendimiento del agente en comparación con varios enfoques de referencia. Además, muestran que la participación constante del asesor en el proceso de recolección de datos disminuye el rendimiento del agente, mientras que la participación limitada hace que el entrenamiento sea más efectivo.
Descripción
Los recientes avances en inteligencia artificial han permitido que los agentes de aprendizaje por refuerzo (RL) superen el rendimiento humano en diversas tareas de juego. Sin embargo, a pesar del rendimiento de vanguardia demostrado por los algoritmos de RL sin modelo, estos sufren de alta complejidad de muestra. Por lo tanto, no es común encontrar sus aplicaciones en robótica, navegación autónoma y conducción autónoma, ya que reunir muchas muestras es impráctico en sistemas de hardware del mundo real. Por lo tanto, desarrollar algoritmos de aprendizaje eficientes en muestras para agentes de RL es crucial para desplegarlos en tareas del mundo real sin sacrificar el rendimiento. Este documento presenta un algoritmo de aprendizaje basado en un asesor, incorporando conocimiento previo en el entrenamiento al modificar el algoritmo de gradiente de política determinista profunda para reducir la complejidad de muestra. Además, proponemos un método efectivo para emplear un asesor en la recolección de datos para entrenar agentes de navegación autónoma para maniobrar plataformas físicas, minimizando el riesgo de colisión. Analizamos el rendimiento de nuestros métodos con el apoyo de simulaciones y configuraciones experimentales físicas. Los experimentos revelan que incorporar un asesor en la fase de entrenamiento reduce significativamente la complejidad de muestra sin comprometer el rendimiento del agente en comparación con varios enfoques de referencia. Además, muestran que la participación constante del asesor en el proceso de recolección de datos disminuye el rendimiento del agente, mientras que la participación limitada hace que el entrenamiento sea más efectivo.