APF-DPPO: Un Método de Aprendizaje de Políticas de Conducción Automática Basado en el Método de Campo Potencial Artificial para Optimizar la Función de Recompensa
Autores: Lin, Junqiang; Zhang, Po; Li, Chengen; Zhou, Yipeng; Wang, Hongjun; Zou, Xiangjun
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
APF-DPPO: Un Método de Aprendizaje de Políticas de Conducción Automática Basado en el Método de Campo Potencial Artificial para Optimizar la Función de Recompensa
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Propone
Conducción autónoma
Método de aprendizaje
Campo potencial artificial
Retroalimentación de penalización
Entorno de obstáculos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
Para abordar la dificultad de obtener la estrategia de conducción óptima bajo la condición de un entorno complejo y tareas cambiantes de la conducción autónoma de vehículos, este documento propone un método de aprendizaje de estrategia de conducción autónoma de extremo a extremo basado en el aprendizaje por refuerzo profundo. Se introducen las ideas de atracción de objetivos y rechazo de obstáculos del método de campo potencial artificial en el algoritmo de optimización de políticas proximales distribuidas, y se establece el modelo de aprendizaje APF-DPPO. Para resolver el problema de repulsión de rango del método de campo potencial artificial, que afecta la estrategia de conducción óptima, este documento propone un método de función de penalización direccional que combina la penalización por colisión y la penalización por guiñada para convertir la penalización de rango de los obstáculos en una única penalización direccional, y establece el modelo de colisión del movimiento del vehículo. Finalmente, se selecciona el modelo de aprendizaje APF-DPPO para entrenar la estrategia de conducción del vehículo virtual, y se selecciona el método de aprendizaje por transferencia para verificar el experimento de comparación. Los resultados de la simulación muestran que la tasa de finalización del vehículo virtual en el entorno de obstáculos que genera retroalimentación de penalización es de hasta el 96.3%, lo que es un 3.8% más alto que la tasa de finalización en el entorno que no genera retroalimentación de penalización. Bajo diferentes funciones de recompensa, el método en este documento obtiene el valor de recompensa acumulativa más alto dentro de los 500 s, lo que mejora 69 puntos en comparación con el método de función de recompensa basado en el método de campo potencial artificial, y tiene mayor adaptabilidad y robustez en diferentes entornos. Los resultados experimentales muestran que este método puede mejorar efectivamente la eficiencia del aprendizaje de estrategias de conducción autónoma y controlar el vehículo virtual para decisiones de comportamiento de conducción autónoma, y proporcionar un soporte teórico y técnico confiable para vehículos reales en la toma de decisiones de conducción autónoma.
Descripción
Para abordar la dificultad de obtener la estrategia de conducción óptima bajo la condición de un entorno complejo y tareas cambiantes de la conducción autónoma de vehículos, este documento propone un método de aprendizaje de estrategia de conducción autónoma de extremo a extremo basado en el aprendizaje por refuerzo profundo. Se introducen las ideas de atracción de objetivos y rechazo de obstáculos del método de campo potencial artificial en el algoritmo de optimización de políticas proximales distribuidas, y se establece el modelo de aprendizaje APF-DPPO. Para resolver el problema de repulsión de rango del método de campo potencial artificial, que afecta la estrategia de conducción óptima, este documento propone un método de función de penalización direccional que combina la penalización por colisión y la penalización por guiñada para convertir la penalización de rango de los obstáculos en una única penalización direccional, y establece el modelo de colisión del movimiento del vehículo. Finalmente, se selecciona el modelo de aprendizaje APF-DPPO para entrenar la estrategia de conducción del vehículo virtual, y se selecciona el método de aprendizaje por transferencia para verificar el experimento de comparación. Los resultados de la simulación muestran que la tasa de finalización del vehículo virtual en el entorno de obstáculos que genera retroalimentación de penalización es de hasta el 96.3%, lo que es un 3.8% más alto que la tasa de finalización en el entorno que no genera retroalimentación de penalización. Bajo diferentes funciones de recompensa, el método en este documento obtiene el valor de recompensa acumulativa más alto dentro de los 500 s, lo que mejora 69 puntos en comparación con el método de función de recompensa basado en el método de campo potencial artificial, y tiene mayor adaptabilidad y robustez en diferentes entornos. Los resultados experimentales muestran que este método puede mejorar efectivamente la eficiencia del aprendizaje de estrategias de conducción autónoma y controlar el vehículo virtual para decisiones de comportamiento de conducción autónoma, y proporcionar un soporte teórico y técnico confiable para vehículos reales en la toma de decisiones de conducción autónoma.