Análisis de control de robot móvil por algoritmo de aprendizaje por refuerzo
Autores: Bernat, Jakub; Czopek, Pawe; Bartosik, Szymon
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Análisis de control de robot móvil por algoritmo de aprendizaje por refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo por refuerzo
Robot móvil
Definiciones de entorno
Gradiente de política determinista profunda
Proceso de aprendizaje de redes neuronales
Simulaciones.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Este trabajo presenta un algoritmo de Aprendizaje Profundo por Refuerzo para controlar un robot móvil de tracción diferencial. Este estudio busca explicar la influencia de diferentes definiciones del entorno con un robot móvil en el proceso de aprendizaje. En nuestro estudio, nos enfocamos en el algoritmo de Aprendizaje por Refuerzo llamado Gradiente de Política Determinista Profunda, que es aplicable a problemas de acción continua. Investigamos la efectividad de diferentes ruidos, entradas y funciones de coste en el proceso de aprendizaje de la red neuronal. Para examinar la característica del algoritmo presentado, se realizaron varias simulaciones y se presentan sus resultados. En las simulaciones, el robot móvil debía alcanzar una posición objetivo de manera que minimizara el error de distancia. Nuestro objetivo era optimizar el proceso de aprendizaje. Al analizar los resultados, queríamos recomendar una elección más eficiente de entradas y funciones de coste para investigaciones futuras.
Descripción
Este trabajo presenta un algoritmo de Aprendizaje Profundo por Refuerzo para controlar un robot móvil de tracción diferencial. Este estudio busca explicar la influencia de diferentes definiciones del entorno con un robot móvil en el proceso de aprendizaje. En nuestro estudio, nos enfocamos en el algoritmo de Aprendizaje por Refuerzo llamado Gradiente de Política Determinista Profunda, que es aplicable a problemas de acción continua. Investigamos la efectividad de diferentes ruidos, entradas y funciones de coste en el proceso de aprendizaje de la red neuronal. Para examinar la característica del algoritmo presentado, se realizaron varias simulaciones y se presentan sus resultados. En las simulaciones, el robot móvil debía alcanzar una posición objetivo de manera que minimizara el error de distancia. Nuestro objetivo era optimizar el proceso de aprendizaje. Al analizar los resultados, queríamos recomendar una elección más eficiente de entradas y funciones de coste para investigaciones futuras.