Una estrategia de aprendizaje profundo por refuerzo que combina la orientación de la experiencia de expertos para un manipulador de recolección de frutas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Una estrategia de aprendizaje profundo por refuerzo que combina la orientación de la experiencia de expertos para un manipulador de recolección de frutas

Autores: Liu, Yuqi; Gao, Po; Zheng, Change; Tian, Lijing; Tian, Ye

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Una estrategia de aprendizaje profundo por refuerzo que combina la orientación de la experiencia de expertos para un manipulador de recolección de frutas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje por refuerzo

Planificación de rutas

Manipulador multi-DOF

Entornos no estructurados

Guía de experiencia experta

Eficiencia de aprendizaje

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones

Al usar algoritmos de aprendizaje profundo por refuerzo para la planificación de trayectorias de un manipulador de recolección de frutas de múltiples grados de libertad en entornos no estructurados, es demasiado difícil para el manipulador de múltiples grados de libertad obtener muestras de alto valor al principio del entrenamiento, lo que resulta en una baja eficiencia de aprendizaje y convergencia. Con el objetivo de reducir la exploración ineficiente en entornos no estructurados, en este artículo se propuso por primera vez una estrategia de aprendizaje por refuerzo que combina la orientación de la experiencia de expertos. Se estudiaron las proporciones de la experiencia de expertos con respecto a las muestras recién generadas y la frecuencia de visitas de regreso a la experiencia de expertos mediante experimentos de simulación. Algunas conclusiones fueron que la proporción de experiencia de expertos, que disminuyó de 0.45 a 0.35, fue más efectiva en mejorar la eficiencia de aprendizaje del modelo que la proporción constante. En comparación con una proporción de experiencia de expertos de 0.35, la tasa de éxito aumentó en un 1.26%, y en comparación con una proporción de experiencia de expertos de 0.45, la tasa de éxito aumentó en un 20.37%. La tasa de éxito más alta se logró cuando la frecuencia de visitas de regreso fue de 15 en 50 episodios, una mejora del 31.77%. Los resultados mostraron que el método propuesto puede mejorar efectivamente el rendimiento del modelo y aumentar la eficiencia de aprendizaje al principio del entrenamiento en entornos no estructurados. Este método de entrenamiento tiene implicaciones para el proceso de entrenamiento del aprendizaje por refuerzo en otros dominios.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro