Voronoi tessellation para muestreo eficiente en planificación de movimiento robótico basada en procesos gaussianos
Autores: Park, Jee-Yong; Lee, Hoosang; Kim, Changhyeon; Ryu, Jeha
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Voronoi tessellation para muestreo eficiente en planificación de movimiento robótico basada en procesos gaussianos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Planificación de movimiento
Sistema robótico autónomo
Aprendizaje profundo por refuerzo
Regresión de proceso gaussiano
Aprendizaje por imitación
Muestreo de teselación de Voronoi
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 54
Citaciones: Sin citaciones
La planificación de movimiento en línea en entornos que cambian dinámicamente plantea un desafío significativo en el diseño de sistemas robóticos autónomos. Los métodos convencionales a menudo requieren elecciones de diseño intrincadas, mientras que los enfoques modernos de aprendizaje profundo por refuerzo (DRL) exigen grandes cantidades de datos de movimiento de robots. Los enfoques de aprendizaje por imitación basados en regresión de procesos gaussianos (GP) abordan estos problemas aprovechando las capacidades de aprendizaje eficiente de datos de GP para inferir políticas generalizadas a partir de un número limitado de demostraciones, que intuitivamente pueden ser generadas por operadores humanos. Sin embargo, los métodos basados en GP están limitados en la escalabilidad de datos, ya que el cálculo se vuelve cúbicamente costoso a medida que aumenta la cantidad de datos aprendidos. Este problema se aborda proponiendo el muestreo de teselación de Voronoi, una estrategia novedosa de muestreo de datos para aprender planificación de movimiento robótico basada en GP, donde se explota la correlación espacial entre las características de entrada y la salida del modelo de predicción de trayectoria para seleccionar los datos a aprender que sean informativos pero aprendibles por el modelo. Donde el punto de referencia lo establece un marco de aprendizaje por imitación que utiliza la regresión de GP para inferir trayectorias que aprenden políticas optimizadas a través de un algoritmo de optimización estocástico basado en recompensas, los resultados experimentales demuestran que el método propuesto puede aprender políticas óptimas que abarcan todo el espacio de características utilizando menos datos en comparación con el método de referencia.
Descripción
La planificación de movimiento en línea en entornos que cambian dinámicamente plantea un desafío significativo en el diseño de sistemas robóticos autónomos. Los métodos convencionales a menudo requieren elecciones de diseño intrincadas, mientras que los enfoques modernos de aprendizaje profundo por refuerzo (DRL) exigen grandes cantidades de datos de movimiento de robots. Los enfoques de aprendizaje por imitación basados en regresión de procesos gaussianos (GP) abordan estos problemas aprovechando las capacidades de aprendizaje eficiente de datos de GP para inferir políticas generalizadas a partir de un número limitado de demostraciones, que intuitivamente pueden ser generadas por operadores humanos. Sin embargo, los métodos basados en GP están limitados en la escalabilidad de datos, ya que el cálculo se vuelve cúbicamente costoso a medida que aumenta la cantidad de datos aprendidos. Este problema se aborda proponiendo el muestreo de teselación de Voronoi, una estrategia novedosa de muestreo de datos para aprender planificación de movimiento robótico basada en GP, donde se explota la correlación espacial entre las características de entrada y la salida del modelo de predicción de trayectoria para seleccionar los datos a aprender que sean informativos pero aprendibles por el modelo. Donde el punto de referencia lo establece un marco de aprendizaje por imitación que utiliza la regresión de GP para inferir trayectorias que aprenden políticas optimizadas a través de un algoritmo de optimización estocástico basado en recompensas, los resultados experimentales demuestran que el método propuesto puede aprender políticas óptimas que abarcan todo el espacio de características utilizando menos datos en comparación con el método de referencia.