Aprendizaje por refuerzo seguro para la manipulación de brazos con procesos de decisión de Markov restringidos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje por refuerzo seguro para la manipulación de brazos con procesos de decisión de Markov restringidos

Autores: Adjei, Patrick; Tasfi, Norman; Gomez-Rosero, Santiago; Capretz, Miriam A. M.

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Aprendizaje por refuerzo seguro para la manipulación de brazos con procesos de decisión de Markov restringidos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Mundo

Coexistencia humano-robot

Aprendizaje por refuerzo

Robótica

Seguridad

Entornos dinámicos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones

En el mundo de la coexistencia humano-robot, garantizar interacciones seguras es crucial. Los métodos tradicionales basados en lógica a menudo carecen de la intuición necesaria para los robots, particularmente en entornos complejos donde estos métodos no logran tener en cuenta todos los escenarios posibles. El aprendizaje por refuerzo ha mostrado promesas en robótica debido a su superior adaptabilidad en comparación con la lógica tradicional. Sin embargo, la naturaleza exploratoria del aprendizaje por refuerzo puede poner en peligro la seguridad. Este artículo aborda los desafíos en la planificación de trayectorias para manipuladores de brazos robóticos en entornos dinámicos. Además, este artículo destaca las trampas de múltiples composiciones de recompensas que son susceptibles a la manipulación de recompensas. Se propone un método novedoso con una formulación simplificada de recompensas y restricciones. Esto permite que el brazo robótico evite un obstáculo no estacionario que nunca se reinicia, mejorando la seguridad operativa. El enfoque propuesto combina retornos esperados escalarizados con un proceso de decisión de Markov restringido a través de un multiplicador de Lagrange, lo que resulta en un mejor rendimiento. El componente de escalarización utiliza el valor de la función de costo indicador, muestreado directamente del búfer de repetición, como un factor de escalado adicional. Este método es particularmente efectivo en entornos dinámicos donde las condiciones cambian continuamente, a diferencia de los enfoques que dependen únicamente del costo esperado escalado por un multiplicador de Lagrange.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro