Gr(1)-aprendizaje profundo guiado por refuerzo para planificación de movimiento multitarea bajo un entorno estocástico
Autores: Zhu, Chenyang; Cai, Yujie; Zhu, Jinyu; Hu, Can; Bi, Jia
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Gr(1)-aprendizaje profundo guiado por refuerzo para planificación de movimiento multitarea bajo un entorno estocástico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Planificación de movimiento
Aprendizaje profundo por refuerzo
Escasez de recompensas
Problemas de sobreestimación
Reactividad generalizada
Lógica temporal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La planificación de movimiento se ha utilizado en la investigación en robótica para tomar decisiones de movimiento bajo ciertas restricciones de movimiento. Los enfoques de Aprendizaje Profundo por Reforzamiento (DRL) se han aplicado a los casos de planificación de movimiento con representaciones de estado continuas. Sin embargo, los enfoques actuales de DRL sufren de escasez de recompensas y problemas de sobreestimación. También es un desafío entrenar a los agentes para lidiar con especificaciones de tareas complejas bajo aproximaciones de redes neuronales profundas. Este documento considera uno de los fragmentos de la Lógica Temporal Lineal (LTL), Reactividad Generalizada de rango 1 (GR(1)), como una lógica temporal reactiva de alto nivel para guiar a los robots en el aprendizaje de estrategias de movimiento eficientes bajo un entorno estocástico.
Descripción
La planificación de movimiento se ha utilizado en la investigación en robótica para tomar decisiones de movimiento bajo ciertas restricciones de movimiento. Los enfoques de Aprendizaje Profundo por Reforzamiento (DRL) se han aplicado a los casos de planificación de movimiento con representaciones de estado continuas. Sin embargo, los enfoques actuales de DRL sufren de escasez de recompensas y problemas de sobreestimación. También es un desafío entrenar a los agentes para lidiar con especificaciones de tareas complejas bajo aproximaciones de redes neuronales profundas. Este documento considera uno de los fragmentos de la Lógica Temporal Lineal (LTL), Reactividad Generalizada de rango 1 (GR(1)), como una lógica temporal reactiva de alto nivel para guiar a los robots en el aprendizaje de estrategias de movimiento eficientes bajo un entorno estocástico.