logo móvil
Contáctanos

Una estrategia propuesta de prioridad para empujar y agarrar basada en un algoritmo Actor-Crítico mejorado

Autores: You, Tianya; Wu, Hao; Xu, Xiangrong; Petrovic, Petar B.; Rodi, Aleksandar

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Una estrategia propuesta de prioridad para empujar y agarrar basada en un algoritmo Actor-Crítico mejorado


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Empujando
Agarrando
Marco Actor-Crítico
Aprendizaje profundo por refuerzo
Repetición de Experiencia Priorizada
Aprendizaje auto-supervisado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
Las habilidades más básicas y primarias de un robot son empujar y agarrar. En escenas desordenadas, empujar para hacer espacio para que los brazos y dedos agarren objetos. Proponemos un marco modificado de Actor-Critic (A-C) para el aprendizaje profundo por refuerzo, Actor-Critic Softmax de Entropía Cruzada (CSAC), y utilizamos la Repetición de Experiencia Priorizada (PER) basada en los fundamentos teóricos y métodos principales del aprendizaje profundo por refuerzo, combinando las ventajas de algoritmos basados en funciones de valor y gradientes de política. El modelo de agarre se entrena utilizando aprendizaje auto-supervisado para lograr un mapeo de extremo a extremo desde la imagen hasta la acción de propulsión y agarre. Se ha creado un módulo de visión y un módulo de acción a partir de todo el marco del algoritmo. La repetición de experiencia priorizada se mejora para mejorar aún más el algoritmo CSAC-PER para la diversidad de muestras del modelo y el rendimiento de exploración del robot durante el entrenamiento de agarre del robot. El búfer de repetición de experiencia se muestrea dinámicamente utilizando la distribución beta previa y se propone un algoritmo de muestreo dinámico basado en la distribución beta (CSAC-beta) basado en el algoritmo CSAC. A pesar de su baja eficiencia inicial, los resultados de simulación experimental muestran que el algoritmo CSAC-beta eventualmente logra buenos resultados y tiene una tasa de éxito de agarre más alta (90%).

Otros recursos que podrían interesarte

Temas Virtualpro