Detección del uso de casco por parte de conductores de motocicletas utilizando una red de aprendizaje profundo con atención espacial-transformador residual
Autores: Chen, Shuai; Lan, Jinhui; Liu, Haoting; Chen, Chengkai; Wang, Xiaohan
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Detección del uso de casco por parte de conductores de motocicletas utilizando una red de aprendizaje profundo con atención espacial-transformador residual
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Propuesto
Teledetección aérea
LMNet
RT3DsAM
ESRGAN
YOLOv5
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Con el objetivo de abordar el problema existente de la detección del uso de cascos por parte de los motociclistas mediante fotografía aérea con vehículos aéreos no tripulados (UAV), se propone un nuevo paradigma de detección remota aérea combinando reconstrucción de superresolución, atención espacial de transformador residual y el clasificador de imágenes You Only Look Once versión 5 (YOLOv5). Debido a su pequeño tamaño, el cambio de tamaño significativo y el fuerte desenfoque por movimiento en las imágenes aéreas de UAV, el modelo de detección de cascos para motociclistas tiene una débil capacidad de generalización y baja precisión. Primero, se diseña una red de atención múltiple tipo escalera (LMNet) para la detección de objetivos para superar estas dificultades. El LMNet permite la interacción y fusión de información en cada etapa, extrae completamente las características de la imagen y minimiza la pérdida de información. En segundo lugar, se propone en este trabajo el Módulo de Atención Espacial 3D de Transformador Residual (RT3DsAM), que digiere información de datos globales que son importantes para la representación de características y la detección de clasificación final. También construye autoatención y mejora la correlación entre la información. En tercer lugar, las imágenes de los motociclistas detectadas por LMNet se recortan y se reconstruyen mediante redes generativas adversariales de superresolución mejoradas (ESRGAN) para restaurar información de textura más realista y bordes nítidos. Finalmente, las imágenes reconstruidas de los motociclistas son clasificadas por el clasificador YOLOv5. Los resultados del experimento muestran que, en comparación con los métodos existentes, nuestro método mejora la precisión de detección de los cascos de los motociclistas en escenas de fotografía aérea, con el indicador de evaluación de precisión media de detección de objetivos (mAP) alcanzando el 91.67%, y la precisión de clasificación de imágenes top1 (TOP1 ACC) alcanzando el 94.23%.
Descripción
Con el objetivo de abordar el problema existente de la detección del uso de cascos por parte de los motociclistas mediante fotografía aérea con vehículos aéreos no tripulados (UAV), se propone un nuevo paradigma de detección remota aérea combinando reconstrucción de superresolución, atención espacial de transformador residual y el clasificador de imágenes You Only Look Once versión 5 (YOLOv5). Debido a su pequeño tamaño, el cambio de tamaño significativo y el fuerte desenfoque por movimiento en las imágenes aéreas de UAV, el modelo de detección de cascos para motociclistas tiene una débil capacidad de generalización y baja precisión. Primero, se diseña una red de atención múltiple tipo escalera (LMNet) para la detección de objetivos para superar estas dificultades. El LMNet permite la interacción y fusión de información en cada etapa, extrae completamente las características de la imagen y minimiza la pérdida de información. En segundo lugar, se propone en este trabajo el Módulo de Atención Espacial 3D de Transformador Residual (RT3DsAM), que digiere información de datos globales que son importantes para la representación de características y la detección de clasificación final. También construye autoatención y mejora la correlación entre la información. En tercer lugar, las imágenes de los motociclistas detectadas por LMNet se recortan y se reconstruyen mediante redes generativas adversariales de superresolución mejoradas (ESRGAN) para restaurar información de textura más realista y bordes nítidos. Finalmente, las imágenes reconstruidas de los motociclistas son clasificadas por el clasificador YOLOv5. Los resultados del experimento muestran que, en comparación con los métodos existentes, nuestro método mejora la precisión de detección de los cascos de los motociclistas en escenas de fotografía aérea, con el indicador de evaluación de precisión media de detección de objetivos (mAP) alcanzando el 91.67%, y la precisión de clasificación de imágenes top1 (TOP1 ACC) alcanzando el 94.23%.