logo móvil
Contáctanos

Una estrategia de aprendizaje profundo por refuerzo que combina la orientación de la experiencia de expertos para un manipulador de recolección de frutas

Autores: Liu, Yuqi; Gao, Po; Zheng, Change; Tian, Lijing; Tian, Ye

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Una estrategia de aprendizaje profundo por refuerzo que combina la orientación de la experiencia de expertos para un manipulador de recolección de frutas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje por refuerzo
Planificación de rutas
Manipulador multi-DOF
Entornos no estructurados
Guía de experiencia experta
Eficiencia de aprendizaje

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones


Descripción
Al usar algoritmos de aprendizaje profundo por refuerzo para la planificación de trayectorias de un manipulador de recolección de frutas de múltiples grados de libertad en entornos no estructurados, es demasiado difícil para el manipulador de múltiples grados de libertad obtener muestras de alto valor al principio del entrenamiento, lo que resulta en una baja eficiencia de aprendizaje y convergencia. Con el objetivo de reducir la exploración ineficiente en entornos no estructurados, en este artículo se propuso por primera vez una estrategia de aprendizaje por refuerzo que combina la orientación de la experiencia de expertos. Se estudiaron las proporciones de la experiencia de expertos con respecto a las muestras recién generadas y la frecuencia de visitas de regreso a la experiencia de expertos mediante experimentos de simulación. Algunas conclusiones fueron que la proporción de experiencia de expertos, que disminuyó de 0.45 a 0.35, fue más efectiva en mejorar la eficiencia de aprendizaje del modelo que la proporción constante. En comparación con una proporción de experiencia de expertos de 0.35, la tasa de éxito aumentó en un 1.26%, y en comparación con una proporción de experiencia de expertos de 0.45, la tasa de éxito aumentó en un 20.37%. La tasa de éxito más alta se logró cuando la frecuencia de visitas de regreso fue de 15 en 50 episodios, una mejora del 31.77%. Los resultados mostraron que el método propuesto puede mejorar efectivamente el rendimiento del modelo y aumentar la eficiencia de aprendizaje al principio del entrenamiento en entornos no estructurados. Este método de entrenamiento tiene implicaciones para el proceso de entrenamiento del aprendizaje por refuerzo en otros dominios.

Otros recursos que podrían interesarte

Temas Virtualpro