Aprendizaje por refuerzo seguro para la manipulación de brazos con procesos de decisión de Markov restringidos
Autores: Adjei, Patrick; Tasfi, Norman; Gomez-Rosero, Santiago; Capretz, Miriam A. M.
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendizaje por refuerzo seguro para la manipulación de brazos con procesos de decisión de Markov restringidos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Mundo
Coexistencia humano-robot
Aprendizaje por refuerzo
Robótica
Seguridad
Entornos dinámicos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
En el mundo de la coexistencia humano-robot, garantizar interacciones seguras es crucial. Los métodos tradicionales basados en lógica a menudo carecen de la intuición necesaria para los robots, particularmente en entornos complejos donde estos métodos no logran tener en cuenta todos los escenarios posibles. El aprendizaje por refuerzo ha mostrado promesas en robótica debido a su superior adaptabilidad en comparación con la lógica tradicional. Sin embargo, la naturaleza exploratoria del aprendizaje por refuerzo puede poner en peligro la seguridad. Este artículo aborda los desafíos en la planificación de trayectorias para manipuladores de brazos robóticos en entornos dinámicos. Además, este artículo destaca las trampas de múltiples composiciones de recompensas que son susceptibles a la manipulación de recompensas. Se propone un método novedoso con una formulación simplificada de recompensas y restricciones. Esto permite que el brazo robótico evite un obstáculo no estacionario que nunca se reinicia, mejorando la seguridad operativa. El enfoque propuesto combina retornos esperados escalarizados con un proceso de decisión de Markov restringido a través de un multiplicador de Lagrange, lo que resulta en un mejor rendimiento. El componente de escalarización utiliza el valor de la función de costo indicador, muestreado directamente del búfer de repetición, como un factor de escalado adicional. Este método es particularmente efectivo en entornos dinámicos donde las condiciones cambian continuamente, a diferencia de los enfoques que dependen únicamente del costo esperado escalado por un multiplicador de Lagrange.
Descripción
En el mundo de la coexistencia humano-robot, garantizar interacciones seguras es crucial. Los métodos tradicionales basados en lógica a menudo carecen de la intuición necesaria para los robots, particularmente en entornos complejos donde estos métodos no logran tener en cuenta todos los escenarios posibles. El aprendizaje por refuerzo ha mostrado promesas en robótica debido a su superior adaptabilidad en comparación con la lógica tradicional. Sin embargo, la naturaleza exploratoria del aprendizaje por refuerzo puede poner en peligro la seguridad. Este artículo aborda los desafíos en la planificación de trayectorias para manipuladores de brazos robóticos en entornos dinámicos. Además, este artículo destaca las trampas de múltiples composiciones de recompensas que son susceptibles a la manipulación de recompensas. Se propone un método novedoso con una formulación simplificada de recompensas y restricciones. Esto permite que el brazo robótico evite un obstáculo no estacionario que nunca se reinicia, mejorando la seguridad operativa. El enfoque propuesto combina retornos esperados escalarizados con un proceso de decisión de Markov restringido a través de un multiplicador de Lagrange, lo que resulta en un mejor rendimiento. El componente de escalarización utiliza el valor de la función de costo indicador, muestreado directamente del búfer de repetición, como un factor de escalado adicional. Este método es particularmente efectivo en entornos dinámicos donde las condiciones cambian continuamente, a diferencia de los enfoques que dependen únicamente del costo esperado escalado por un multiplicador de Lagrange.