Conducción Autónoma Simulada Usando Aprendizaje por Refuerzo: Un Estudio Comparativo sobre el Marco de Trabajo ML-Agents de Unity

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Conducción Autónoma Simulada Usando Aprendizaje por Refuerzo: Un Estudio Comparativo sobre el Marco de Trabajo ML-Agents de Unity

Autores: Savid, Yusef; Mahmoudi, Reza; Maskelinas, Rytis; Damaeviius, Robertas

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Conducción Autónoma Simulada Usando Aprendizaje por Refuerzo: Un Estudio Comparativo sobre el Marco de Trabajo ML-Agents de Unity

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Avances

Inteligencia artificial

Aprendizaje por refuerzo

Unity ML-Agents

Pista de carreras

Obstáculos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los avances en inteligencia artificial están llevando a los investigadores a encontrar casos de uso que no eran tan sencillos de resolver en el pasado. El caso de uso de la conducción autónoma simulada ha sido conocido como una tarea notoriamente difícil de automatizar, pero los avances en el campo del aprendizaje por refuerzo han hecho posible alcanzar resultados satisfactorios. En este artículo, exploramos el uso del kit de herramientas Unity ML-Agents para entrenar agentes inteligentes para navegar en una pista de carreras en un entorno simulado utilizando algoritmos de RL. El artículo compara el rendimiento de varios algoritmos y configuraciones de RL diferentes en la tarea de entrenar agentes de kart para atravesar con éxito una pista de carreras e identifica el enfoque más efectivo para entrenar a los agentes de kart para navegar en una pista de carreras y evitar obstáculos en esa pista. Los mejores resultados, una pérdida de valor de 0.0013 y una recompensa acumulativa de 0.761, se obtuvieron utilizando el algoritmo de Optimización de Política Proximal. Después de elegir con éxito un modelo y un algoritmo que pueden atravesar la pista con facilidad, se añadieron diferentes objetos a la pista y se entrenó otro modelo (que utilizó el clonaje de comportamiento como opción de pre-entrenamiento) para evitar tales obstáculos. El modelo mencionado resultó en una pérdida de valor de 0.001 y una recompensa acumulativa de 0.068, demostrando que el clonaje de comportamiento puede ayudar a lograr resultados satisfactorios donde los agentes en el juego pueden evitar obstáculos de manera más eficiente y completar la pista con un rendimiento similar al humano, permitiendo el despliegue de agentes inteligentes en simuladores de carreras.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro