Una estrategia de aprendizaje profundo por refuerzo que combina la orientación de la experiencia de expertos para un manipulador de recolección de frutas
Autores: Liu, Yuqi; Gao, Po; Zheng, Change; Tian, Lijing; Tian, Ye
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Una estrategia de aprendizaje profundo por refuerzo que combina la orientación de la experiencia de expertos para un manipulador de recolección de frutas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje por refuerzo
Planificación de rutas
Manipulador multi-DOF
Entornos no estructurados
Guía de experiencia experta
Eficiencia de aprendizaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
Al usar algoritmos de aprendizaje profundo por refuerzo para la planificación de trayectorias de un manipulador de recolección de frutas de múltiples grados de libertad en entornos no estructurados, es demasiado difícil para el manipulador de múltiples grados de libertad obtener muestras de alto valor al principio del entrenamiento, lo que resulta en una baja eficiencia de aprendizaje y convergencia. Con el objetivo de reducir la exploración ineficiente en entornos no estructurados, en este artículo se propuso por primera vez una estrategia de aprendizaje por refuerzo que combina la orientación de la experiencia de expertos. Se estudiaron las proporciones de la experiencia de expertos con respecto a las muestras recién generadas y la frecuencia de visitas de regreso a la experiencia de expertos mediante experimentos de simulación. Algunas conclusiones fueron que la proporción de experiencia de expertos, que disminuyó de 0.45 a 0.35, fue más efectiva en mejorar la eficiencia de aprendizaje del modelo que la proporción constante. En comparación con una proporción de experiencia de expertos de 0.35, la tasa de éxito aumentó en un 1.26%, y en comparación con una proporción de experiencia de expertos de 0.45, la tasa de éxito aumentó en un 20.37%. La tasa de éxito más alta se logró cuando la frecuencia de visitas de regreso fue de 15 en 50 episodios, una mejora del 31.77%. Los resultados mostraron que el método propuesto puede mejorar efectivamente el rendimiento del modelo y aumentar la eficiencia de aprendizaje al principio del entrenamiento en entornos no estructurados. Este método de entrenamiento tiene implicaciones para el proceso de entrenamiento del aprendizaje por refuerzo en otros dominios.
Descripción
Al usar algoritmos de aprendizaje profundo por refuerzo para la planificación de trayectorias de un manipulador de recolección de frutas de múltiples grados de libertad en entornos no estructurados, es demasiado difícil para el manipulador de múltiples grados de libertad obtener muestras de alto valor al principio del entrenamiento, lo que resulta en una baja eficiencia de aprendizaje y convergencia. Con el objetivo de reducir la exploración ineficiente en entornos no estructurados, en este artículo se propuso por primera vez una estrategia de aprendizaje por refuerzo que combina la orientación de la experiencia de expertos. Se estudiaron las proporciones de la experiencia de expertos con respecto a las muestras recién generadas y la frecuencia de visitas de regreso a la experiencia de expertos mediante experimentos de simulación. Algunas conclusiones fueron que la proporción de experiencia de expertos, que disminuyó de 0.45 a 0.35, fue más efectiva en mejorar la eficiencia de aprendizaje del modelo que la proporción constante. En comparación con una proporción de experiencia de expertos de 0.35, la tasa de éxito aumentó en un 1.26%, y en comparación con una proporción de experiencia de expertos de 0.45, la tasa de éxito aumentó en un 20.37%. La tasa de éxito más alta se logró cuando la frecuencia de visitas de regreso fue de 15 en 50 episodios, una mejora del 31.77%. Los resultados mostraron que el método propuesto puede mejorar efectivamente el rendimiento del modelo y aumentar la eficiencia de aprendizaje al principio del entrenamiento en entornos no estructurados. Este método de entrenamiento tiene implicaciones para el proceso de entrenamiento del aprendizaje por refuerzo en otros dominios.