Conducción Autónoma Simulada Usando Aprendizaje por Refuerzo: Un Estudio Comparativo sobre el Marco de Trabajo ML-Agents de Unity
Autores: Savid, Yusef; Mahmoudi, Reza; Maskelinas, Rytis; Damaeviius, Robertas
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Conducción Autónoma Simulada Usando Aprendizaje por Refuerzo: Un Estudio Comparativo sobre el Marco de Trabajo ML-Agents de Unity
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Avances
Inteligencia artificial
Aprendizaje por refuerzo
Unity ML-Agents
Pista de carreras
Obstáculos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los avances en inteligencia artificial están llevando a los investigadores a encontrar casos de uso que no eran tan sencillos de resolver en el pasado. El caso de uso de la conducción autónoma simulada ha sido conocido como una tarea notoriamente difícil de automatizar, pero los avances en el campo del aprendizaje por refuerzo han hecho posible alcanzar resultados satisfactorios. En este artículo, exploramos el uso del kit de herramientas Unity ML-Agents para entrenar agentes inteligentes para navegar en una pista de carreras en un entorno simulado utilizando algoritmos de RL. El artículo compara el rendimiento de varios algoritmos y configuraciones de RL diferentes en la tarea de entrenar agentes de kart para atravesar con éxito una pista de carreras e identifica el enfoque más efectivo para entrenar a los agentes de kart para navegar en una pista de carreras y evitar obstáculos en esa pista. Los mejores resultados, una pérdida de valor de 0.0013 y una recompensa acumulativa de 0.761, se obtuvieron utilizando el algoritmo de Optimización de Política Proximal. Después de elegir con éxito un modelo y un algoritmo que pueden atravesar la pista con facilidad, se añadieron diferentes objetos a la pista y se entrenó otro modelo (que utilizó el clonaje de comportamiento como opción de pre-entrenamiento) para evitar tales obstáculos. El modelo mencionado resultó en una pérdida de valor de 0.001 y una recompensa acumulativa de 0.068, demostrando que el clonaje de comportamiento puede ayudar a lograr resultados satisfactorios donde los agentes en el juego pueden evitar obstáculos de manera más eficiente y completar la pista con un rendimiento similar al humano, permitiendo el despliegue de agentes inteligentes en simuladores de carreras.
Descripción
Los avances en inteligencia artificial están llevando a los investigadores a encontrar casos de uso que no eran tan sencillos de resolver en el pasado. El caso de uso de la conducción autónoma simulada ha sido conocido como una tarea notoriamente difícil de automatizar, pero los avances en el campo del aprendizaje por refuerzo han hecho posible alcanzar resultados satisfactorios. En este artículo, exploramos el uso del kit de herramientas Unity ML-Agents para entrenar agentes inteligentes para navegar en una pista de carreras en un entorno simulado utilizando algoritmos de RL. El artículo compara el rendimiento de varios algoritmos y configuraciones de RL diferentes en la tarea de entrenar agentes de kart para atravesar con éxito una pista de carreras e identifica el enfoque más efectivo para entrenar a los agentes de kart para navegar en una pista de carreras y evitar obstáculos en esa pista. Los mejores resultados, una pérdida de valor de 0.0013 y una recompensa acumulativa de 0.761, se obtuvieron utilizando el algoritmo de Optimización de Política Proximal. Después de elegir con éxito un modelo y un algoritmo que pueden atravesar la pista con facilidad, se añadieron diferentes objetos a la pista y se entrenó otro modelo (que utilizó el clonaje de comportamiento como opción de pre-entrenamiento) para evitar tales obstáculos. El modelo mencionado resultó en una pérdida de valor de 0.001 y una recompensa acumulativa de 0.068, demostrando que el clonaje de comportamiento puede ayudar a lograr resultados satisfactorios donde los agentes en el juego pueden evitar obstáculos de manera más eficiente y completar la pista con un rendimiento similar al humano, permitiendo el despliegue de agentes inteligentes en simuladores de carreras.