Aprendizaje por refuerzo basado en control para el desmontaje de elementos flexibles robóticos
Autores: Tapia Sal Paz, Benjamín; Sorrosal, Gorka; Mancisidor, Aitziber; Calleja, Carlos; Cabanes, Itziar
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje por refuerzo basado en control para el desmontaje de elementos flexibles robóticos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Desmontaje
Fabricación sostenible
Procesos de reciclaje
Elementos flexibles
Aprendizaje por refuerzo
Desmontaje robótico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
El desmontaje juega un papel vital en los procesos de fabricación y reciclaje sostenibles, facilitando la recuperación y reutilización de componentes valiosos. Sin embargo, la automatización del desmontaje, especialmente para elementos flexibles como cables y sellos de goma, plantea desafíos significativos debido a su comportamiento no lineal y propiedades dinámicas. Los sistemas de control tradicionales luchan por manejar estas tareas de manera eficiente, requiriendo soluciones adaptables que puedan operar en entornos no estructurados que proporcionen adaptación en línea. Este documento presenta una estrategia de control basada en aprendizaje por refuerzo (RL) para el desmontaje robótico de elementos flexibles. El método propuesto se centra en el control de nivel bajo, en el que la manipulación precisa del robot es esencial para minimizar la fuerza y evitar daños durante la extracción. Se adapta una función de recompensa adaptativa para tener en cuenta las diferentes propiedades de los materiales, garantizando un rendimiento sólido en diferentes escenarios operativos. El enfoque basado en RL se evalúa en una simulación utilizando los algoritmos soft actor-critic (SAC), deep deterministic policy gradient (DDPG) y proximal policy optimization (PPO), evaluando su efectividad en entornos dinámicos. Los resultados experimentales indican el rendimiento satisfactorio del robot en condiciones operativas, logrando una tasa de éxito adecuada y minimización de la fuerza. Destacable, hay al menos una reducción del 20% en la fuerza en comparación con los métodos de planificación tradicionales. La función de recompensa adaptativa mejora aún más la capacidad del sistema robótico para generalizar en una variedad de tareas de desmontaje de elementos flexibles, convirtiéndolo en una solución prometedora para aplicaciones del mundo real.
Descripción
El desmontaje juega un papel vital en los procesos de fabricación y reciclaje sostenibles, facilitando la recuperación y reutilización de componentes valiosos. Sin embargo, la automatización del desmontaje, especialmente para elementos flexibles como cables y sellos de goma, plantea desafíos significativos debido a su comportamiento no lineal y propiedades dinámicas. Los sistemas de control tradicionales luchan por manejar estas tareas de manera eficiente, requiriendo soluciones adaptables que puedan operar en entornos no estructurados que proporcionen adaptación en línea. Este documento presenta una estrategia de control basada en aprendizaje por refuerzo (RL) para el desmontaje robótico de elementos flexibles. El método propuesto se centra en el control de nivel bajo, en el que la manipulación precisa del robot es esencial para minimizar la fuerza y evitar daños durante la extracción. Se adapta una función de recompensa adaptativa para tener en cuenta las diferentes propiedades de los materiales, garantizando un rendimiento sólido en diferentes escenarios operativos. El enfoque basado en RL se evalúa en una simulación utilizando los algoritmos soft actor-critic (SAC), deep deterministic policy gradient (DDPG) y proximal policy optimization (PPO), evaluando su efectividad en entornos dinámicos. Los resultados experimentales indican el rendimiento satisfactorio del robot en condiciones operativas, logrando una tasa de éxito adecuada y minimización de la fuerza. Destacable, hay al menos una reducción del 20% en la fuerza en comparación con los métodos de planificación tradicionales. La función de recompensa adaptativa mejora aún más la capacidad del sistema robótico para generalizar en una variedad de tareas de desmontaje de elementos flexibles, convirtiéndolo en una solución prometedora para aplicaciones del mundo real.