Eficiente visión transformer YOLOv5 para detección precisa y rápida de señales de tráfico
Autores: Zeng, Guang; Wu, Zhizhou; Xu, Lipeng; Liang, Yunyi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Eficiente visión transformer YOLOv5 para detección precisa y rápida de señales de tráfico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección
Algoritmo
Precisión
Velocidad
Señal de tráfico
YOLOv5
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
La detección precisa y rápida de la información de señales de tráfico es vital para los sistemas de conducción autónoma. Sin embargo, el algoritmo YOLOv5 enfrenta desafíos con baja precisión y detección lenta cuando se utiliza para la detección de señales de tráfico. Para abordar estas deficiencias, este documento presenta un algoritmo preciso y rápido de detección de señales de tráfico: YOLOv5-Efficient Vision TransFormer (EfficientViT). El algoritmo se centra en mejorar tanto la precisión como la velocidad del modelo al reemplazar el espinazo CSPDarknet del modelo YOLOv5(s) con la red EfficientViT. Además, el algoritmo incorpora el mecanismo de atención del Módulo de Atención de Bloque Convolucional (CBAM) para mejorar la extracción de información de capas de características y aumentar la precisión del algoritmo de detección. Para mitigar los efectos adversos de las etiquetas de baja calidad en la generación de gradientes y mejorar la competitividad de los marcos de anclaje de alta calidad, se emplea una estrategia de asignación de ganancia de gradiente superior. Además, la estrategia introduce el Wise-IoU (WIoU), un mecanismo dinámico de enfoque no monótono para la pérdida de cuadros delimitadores, para mejorar aún más la precisión y velocidad del algoritmo de detección de objetos. La efectividad del algoritmo se valida a través de experimentos realizados en el conjunto de datos de señales de tráfico 3L-TT100K, mostrando una precisión promedio (mAP) del 94.1% en la detección de señales de tráfico. Este mAP supera el rendimiento del algoritmo YOLOv5(s) en un 4.76% y supera al algoritmo de referencia. Además, el algoritmo logra una velocidad de detección de 62.50 cuadros por segundo, que es mucho mejor que el algoritmo de referencia.
Descripción
La detección precisa y rápida de la información de señales de tráfico es vital para los sistemas de conducción autónoma. Sin embargo, el algoritmo YOLOv5 enfrenta desafíos con baja precisión y detección lenta cuando se utiliza para la detección de señales de tráfico. Para abordar estas deficiencias, este documento presenta un algoritmo preciso y rápido de detección de señales de tráfico: YOLOv5-Efficient Vision TransFormer (EfficientViT). El algoritmo se centra en mejorar tanto la precisión como la velocidad del modelo al reemplazar el espinazo CSPDarknet del modelo YOLOv5(s) con la red EfficientViT. Además, el algoritmo incorpora el mecanismo de atención del Módulo de Atención de Bloque Convolucional (CBAM) para mejorar la extracción de información de capas de características y aumentar la precisión del algoritmo de detección. Para mitigar los efectos adversos de las etiquetas de baja calidad en la generación de gradientes y mejorar la competitividad de los marcos de anclaje de alta calidad, se emplea una estrategia de asignación de ganancia de gradiente superior. Además, la estrategia introduce el Wise-IoU (WIoU), un mecanismo dinámico de enfoque no monótono para la pérdida de cuadros delimitadores, para mejorar aún más la precisión y velocidad del algoritmo de detección de objetos. La efectividad del algoritmo se valida a través de experimentos realizados en el conjunto de datos de señales de tráfico 3L-TT100K, mostrando una precisión promedio (mAP) del 94.1% en la detección de señales de tráfico. Este mAP supera el rendimiento del algoritmo YOLOv5(s) en un 4.76% y supera al algoritmo de referencia. Además, el algoritmo logra una velocidad de detección de 62.50 cuadros por segundo, que es mucho mejor que el algoritmo de referencia.