Vit-Traj: Un modelo de predicción de trayectoria de vehículos basado en el acoplamiento espacial-temporal y en el transformador de visión

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Vit-Traj: Un modelo de predicción de trayectoria de vehículos basado en el acoplamiento espacial-temporal y en el transformador de visión

Autores: Cheng, Rongjun; An, Xudong; Xu, Yuanzi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Vit-Traj: Un modelo de predicción de trayectoria de vehículos basado en el acoplamiento espacial-temporal y en el transformador de visión

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Vehículos autónomos

Modelos de predicción de trayectorias

Red neuronal espacio-temporal

Vision Transformer

Modelo de fusión de características

ViT-Traj

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones

Predecir con precisión la trayectoria futura de los usuarios de la carretera alrededor de vehículos autónomos es crucial para la planificación de rutas y la evitación de colisiones. En los últimos años, los modelos de predicción de trayectorias de vehículos basados en datos se han convertido en un enfoque de investigación significativo, y se han propuesto varios modelos de redes neuronales espaciales-temporales, basados en datos espaciales-temporales. Sin embargo, algunos modelos espaciales-temporales existentes segregan el tiempo y el espacio, descuidando el acoplamiento inherente entre ambos. Para abordar este problema, se propone en este artículo un modelo de fusión de características espaciales-temporales de extremo a extremo, basado en el Vision Transformer (Vit), que puede acoplar características estereoscópicas de diversas regiones espaciales y períodos de tiempo. Específicamente, proponemos un modelo de acoplamiento de características espaciotemporales de extremo a extremo basado en el Transformer visual, Vit-Traj, que extrae características espaciotemporales a través de convolución 2D y utiliza Vit y SENet para completar la fusión de características. Los resultados experimentales en los conjuntos de datos NGSIM y HighD indican que, en comparación con los modelos de última generación, el modelo propuesto exhibe un mejor rendimiento. El error cuadrático medio (RMSE) es de 2.72 m en el conjunto de datos NGSIM y de 0.86 m en el conjunto de datos HighD cuando el horizonte de predicción es de 5 s. Además, se realizan experimentos de ablación para evaluar el rendimiento de cada módulo, afirmando la eficacia de ViT en la modelización de datos espaciales-temporales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro