Una estrategia propuesta de prioridad para empujar y agarrar basada en un algoritmo Actor-Crítico mejorado
Autores: You, Tianya; Wu, Hao; Xu, Xiangrong; Petrovic, Petar B.; Rodi, Aleksandar
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Una estrategia propuesta de prioridad para empujar y agarrar basada en un algoritmo Actor-Crítico mejorado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Empujando
Agarrando
Marco Actor-Crítico
Aprendizaje profundo por refuerzo
Repetición de Experiencia Priorizada
Aprendizaje auto-supervisado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Las habilidades más básicas y primarias de un robot son empujar y agarrar. En escenas desordenadas, empujar para hacer espacio para que los brazos y dedos agarren objetos. Proponemos un marco modificado de Actor-Critic (A-C) para el aprendizaje profundo por refuerzo, Actor-Critic Softmax de Entropía Cruzada (CSAC), y utilizamos la Repetición de Experiencia Priorizada (PER) basada en los fundamentos teóricos y métodos principales del aprendizaje profundo por refuerzo, combinando las ventajas de algoritmos basados en funciones de valor y gradientes de política. El modelo de agarre se entrena utilizando aprendizaje auto-supervisado para lograr un mapeo de extremo a extremo desde la imagen hasta la acción de propulsión y agarre. Se ha creado un módulo de visión y un módulo de acción a partir de todo el marco del algoritmo. La repetición de experiencia priorizada se mejora para mejorar aún más el algoritmo CSAC-PER para la diversidad de muestras del modelo y el rendimiento de exploración del robot durante el entrenamiento de agarre del robot. El búfer de repetición de experiencia se muestrea dinámicamente utilizando la distribución beta previa y se propone un algoritmo de muestreo dinámico basado en la distribución beta (CSAC-beta) basado en el algoritmo CSAC. A pesar de su baja eficiencia inicial, los resultados de simulación experimental muestran que el algoritmo CSAC-beta eventualmente logra buenos resultados y tiene una tasa de éxito de agarre más alta (90%).
Descripción
Las habilidades más básicas y primarias de un robot son empujar y agarrar. En escenas desordenadas, empujar para hacer espacio para que los brazos y dedos agarren objetos. Proponemos un marco modificado de Actor-Critic (A-C) para el aprendizaje profundo por refuerzo, Actor-Critic Softmax de Entropía Cruzada (CSAC), y utilizamos la Repetición de Experiencia Priorizada (PER) basada en los fundamentos teóricos y métodos principales del aprendizaje profundo por refuerzo, combinando las ventajas de algoritmos basados en funciones de valor y gradientes de política. El modelo de agarre se entrena utilizando aprendizaje auto-supervisado para lograr un mapeo de extremo a extremo desde la imagen hasta la acción de propulsión y agarre. Se ha creado un módulo de visión y un módulo de acción a partir de todo el marco del algoritmo. La repetición de experiencia priorizada se mejora para mejorar aún más el algoritmo CSAC-PER para la diversidad de muestras del modelo y el rendimiento de exploración del robot durante el entrenamiento de agarre del robot. El búfer de repetición de experiencia se muestrea dinámicamente utilizando la distribución beta previa y se propone un algoritmo de muestreo dinámico basado en la distribución beta (CSAC-beta) basado en el algoritmo CSAC. A pesar de su baja eficiencia inicial, los resultados de simulación experimental muestran que el algoritmo CSAC-beta eventualmente logra buenos resultados y tiene una tasa de éxito de agarre más alta (90%).