APF-DPPO: Un Método de Aprendizaje de Políticas de Conducción Automática Basado en el Método de Campo Potencial Artificial para Optimizar la Función de Recompensa

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

APF-DPPO: Un Método de Aprendizaje de Políticas de Conducción Automática Basado en el Método de Campo Potencial Artificial para Optimizar la Función de Recompensa

Autores: Lin, Junqiang; Zhang, Po; Li, Chengen; Zhou, Yipeng; Wang, Hongjun; Zou, Xiangjun

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

APF-DPPO: Un Método de Aprendizaje de Políticas de Conducción Automática Basado en el Método de Campo Potencial Artificial para Optimizar la Función de Recompensa

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Propone

Conducción autónoma

Método de aprendizaje

Campo potencial artificial

Retroalimentación de penalización

Entorno de obstáculos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 17

Citaciones: Sin citaciones

Para abordar la dificultad de obtener la estrategia de conducción óptima bajo la condición de un entorno complejo y tareas cambiantes de la conducción autónoma de vehículos, este documento propone un método de aprendizaje de estrategia de conducción autónoma de extremo a extremo basado en el aprendizaje por refuerzo profundo. Se introducen las ideas de atracción de objetivos y rechazo de obstáculos del método de campo potencial artificial en el algoritmo de optimización de políticas proximales distribuidas, y se establece el modelo de aprendizaje APF-DPPO. Para resolver el problema de repulsión de rango del método de campo potencial artificial, que afecta la estrategia de conducción óptima, este documento propone un método de función de penalización direccional que combina la penalización por colisión y la penalización por guiñada para convertir la penalización de rango de los obstáculos en una única penalización direccional, y establece el modelo de colisión del movimiento del vehículo. Finalmente, se selecciona el modelo de aprendizaje APF-DPPO para entrenar la estrategia de conducción del vehículo virtual, y se selecciona el método de aprendizaje por transferencia para verificar el experimento de comparación. Los resultados de la simulación muestran que la tasa de finalización del vehículo virtual en el entorno de obstáculos que genera retroalimentación de penalización es de hasta el 96.3%, lo que es un 3.8% más alto que la tasa de finalización en el entorno que no genera retroalimentación de penalización. Bajo diferentes funciones de recompensa, el método en este documento obtiene el valor de recompensa acumulativa más alto dentro de los 500 s, lo que mejora 69 puntos en comparación con el método de función de recompensa basado en el método de campo potencial artificial, y tiene mayor adaptabilidad y robustez en diferentes entornos. Los resultados experimentales muestran que este método puede mejorar efectivamente la eficiencia del aprendizaje de estrategias de conducción autónoma y controlar el vehículo virtual para decisiones de comportamiento de conducción autónoma, y proporcionar un soporte teórico y técnico confiable para vehículos reales en la toma de decisiones de conducción autónoma.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro