logo móvil
Contáctanos

Voronoi tessellation para muestreo eficiente en planificación de movimiento robótico basada en procesos gaussianos

Autores: Park, Jee-Yong; Lee, Hoosang; Kim, Changhyeon; Ryu, Jeha

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Voronoi tessellation para muestreo eficiente en planificación de movimiento robótico basada en procesos gaussianos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Planificación de movimiento
Sistema robótico autónomo
Aprendizaje profundo por refuerzo
Regresión de proceso gaussiano
Aprendizaje por imitación
Muestreo de teselación de Voronoi

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 54

Citaciones: Sin citaciones


Descripción
La planificación de movimiento en línea en entornos que cambian dinámicamente plantea un desafío significativo en el diseño de sistemas robóticos autónomos. Los métodos convencionales a menudo requieren elecciones de diseño intrincadas, mientras que los enfoques modernos de aprendizaje profundo por refuerzo (DRL) exigen grandes cantidades de datos de movimiento de robots. Los enfoques de aprendizaje por imitación basados en regresión de procesos gaussianos (GP) abordan estos problemas aprovechando las capacidades de aprendizaje eficiente de datos de GP para inferir políticas generalizadas a partir de un número limitado de demostraciones, que intuitivamente pueden ser generadas por operadores humanos. Sin embargo, los métodos basados en GP están limitados en la escalabilidad de datos, ya que el cálculo se vuelve cúbicamente costoso a medida que aumenta la cantidad de datos aprendidos. Este problema se aborda proponiendo el muestreo de teselación de Voronoi, una estrategia novedosa de muestreo de datos para aprender planificación de movimiento robótico basada en GP, donde se explota la correlación espacial entre las características de entrada y la salida del modelo de predicción de trayectoria para seleccionar los datos a aprender que sean informativos pero aprendibles por el modelo. Donde el punto de referencia lo establece un marco de aprendizaje por imitación que utiliza la regresión de GP para inferir trayectorias que aprenden políticas optimizadas a través de un algoritmo de optimización estocástico basado en recompensas, los resultados experimentales demuestran que el método propuesto puede aprender políticas óptimas que abarcan todo el espacio de características utilizando menos datos en comparación con el método de referencia.

Otros recursos que podrían interesarte

Temas Virtualpro