Investigación sobre Agentes de Juego Basados en Aprendizaje por Refuerzo Profundo
Autores: Zhao, Kai; Song, Jia; Luo, Yuxie; Liu, Yang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Investigación sobre Agentes de Juego Basados en Aprendizaje por Refuerzo Profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Movilidad autónoma
Planificación de rutas
Gradiente de política determinista profunda
Función de recompensa
Entrenamiento incremental
Experimento de Monte Carlo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
La planificación de rutas es una tecnología clave para la movilidad autónoma de robots inteligentes. Sin embargo, hay pocos estudios sobre cómo llevar a cabo la planificación de rutas en tiempo real en un entorno de confrontación. Por lo tanto, basado en el algoritmo de gradiente de política determinista profunda (DDPG), este artículo diseña la función de recompensa y adopta el método de entrenamiento incremental y compensación de recompensa para mejorar la eficiencia del entrenamiento y obtener la estrategia de penetración. Los resultados del experimento de Monte Carlo muestran que el algoritmo puede evitar eficazmente obstáculos estáticos, romper la interceptación y, finalmente, alcanzar el área objetivo. Además, el algoritmo también se valida en el simulador Webots.
Descripción
La planificación de rutas es una tecnología clave para la movilidad autónoma de robots inteligentes. Sin embargo, hay pocos estudios sobre cómo llevar a cabo la planificación de rutas en tiempo real en un entorno de confrontación. Por lo tanto, basado en el algoritmo de gradiente de política determinista profunda (DDPG), este artículo diseña la función de recompensa y adopta el método de entrenamiento incremental y compensación de recompensa para mejorar la eficiencia del entrenamiento y obtener la estrategia de penetración. Los resultados del experimento de Monte Carlo muestran que el algoritmo puede evitar eficazmente obstáculos estáticos, romper la interceptación y, finalmente, alcanzar el área objetivo. Además, el algoritmo también se valida en el simulador Webots.