Vit-Traj: Un modelo de predicción de trayectoria de vehículos basado en el acoplamiento espacial-temporal y en el transformador de visión
Autores: Cheng, Rongjun; An, Xudong; Xu, Yuanzi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Vit-Traj: Un modelo de predicción de trayectoria de vehículos basado en el acoplamiento espacial-temporal y en el transformador de visión
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Vehículos autónomos
Modelos de predicción de trayectorias
Red neuronal espacio-temporal
Vision Transformer
Modelo de fusión de características
ViT-Traj
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Predecir con precisión la trayectoria futura de los usuarios de la carretera alrededor de vehículos autónomos es crucial para la planificación de rutas y la evitación de colisiones. En los últimos años, los modelos de predicción de trayectorias de vehículos basados en datos se han convertido en un enfoque de investigación significativo, y se han propuesto varios modelos de redes neuronales espaciales-temporales, basados en datos espaciales-temporales. Sin embargo, algunos modelos espaciales-temporales existentes segregan el tiempo y el espacio, descuidando el acoplamiento inherente entre ambos. Para abordar este problema, se propone en este artículo un modelo de fusión de características espaciales-temporales de extremo a extremo, basado en el Vision Transformer (Vit), que puede acoplar características estereoscópicas de diversas regiones espaciales y períodos de tiempo. Específicamente, proponemos un modelo de acoplamiento de características espaciotemporales de extremo a extremo basado en el Transformer visual, Vit-Traj, que extrae características espaciotemporales a través de convolución 2D y utiliza Vit y SENet para completar la fusión de características. Los resultados experimentales en los conjuntos de datos NGSIM y HighD indican que, en comparación con los modelos de última generación, el modelo propuesto exhibe un mejor rendimiento. El error cuadrático medio (RMSE) es de 2.72 m en el conjunto de datos NGSIM y de 0.86 m en el conjunto de datos HighD cuando el horizonte de predicción es de 5 s. Además, se realizan experimentos de ablación para evaluar el rendimiento de cada módulo, afirmando la eficacia de ViT en la modelización de datos espaciales-temporales.
Descripción
Predecir con precisión la trayectoria futura de los usuarios de la carretera alrededor de vehículos autónomos es crucial para la planificación de rutas y la evitación de colisiones. En los últimos años, los modelos de predicción de trayectorias de vehículos basados en datos se han convertido en un enfoque de investigación significativo, y se han propuesto varios modelos de redes neuronales espaciales-temporales, basados en datos espaciales-temporales. Sin embargo, algunos modelos espaciales-temporales existentes segregan el tiempo y el espacio, descuidando el acoplamiento inherente entre ambos. Para abordar este problema, se propone en este artículo un modelo de fusión de características espaciales-temporales de extremo a extremo, basado en el Vision Transformer (Vit), que puede acoplar características estereoscópicas de diversas regiones espaciales y períodos de tiempo. Específicamente, proponemos un modelo de acoplamiento de características espaciotemporales de extremo a extremo basado en el Transformer visual, Vit-Traj, que extrae características espaciotemporales a través de convolución 2D y utiliza Vit y SENet para completar la fusión de características. Los resultados experimentales en los conjuntos de datos NGSIM y HighD indican que, en comparación con los modelos de última generación, el modelo propuesto exhibe un mejor rendimiento. El error cuadrático medio (RMSE) es de 2.72 m en el conjunto de datos NGSIM y de 0.86 m en el conjunto de datos HighD cuando el horizonte de predicción es de 5 s. Además, se realizan experimentos de ablación para evaluar el rendimiento de cada módulo, afirmando la eficacia de ViT en la modelización de datos espaciales-temporales.