Detección de objetos en video de drones con unidad recurrente de puerta de atención temporal basada en transformador
Autores: Zhou, Zihao; Yu, Xianguo; Chen, Xiangcheng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Detección de objetos en video de drones con unidad recurrente de puerta de atención temporal basada en transformador
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Detección de objetos
Características visuales
Información de movimiento
Atención temporal
Redes neuronales recurrentes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de objetos basada en vehículos aéreos no tripulados (VANT) juega un papel fundamental en los campos civil y militar. Desafortunadamente, el problema es más desafiante que la detección de objetos visuales general debido al deterioro significativo de la apariencia en las imágenes capturadas por drones. Considerando que el video contiene características visuales más abundantes e información de movimiento, una mejor idea para la detección de objetos en imágenes basada en VANT es mejorar la apariencia del objetivo en el marco de referencia agregando las características en los marcos vecinos. Sin embargo, los métodos simples de agregación de características a menudo introducirán la interferencia del fondo en los objetivos. Para resolver este problema, propusimos un módulo más efectivo, denominado Unidad Recurrente de Atención Temporal (TA-GRU), para extraer información temporal efectiva basada en redes neuronales recurrentes y transformadores. TA-GRU funciona como un módulo adicional para llevar a los detectores de objetos estáticos existentes a detectores de objetos en video de alto rendimiento, con un costo computacional adicional negligible. Para validar la eficacia de nuestro módulo, seleccionamos YOLOv7 como base y realizamos experimentos exhaustivos en el conjunto de datos VisDrone2019-VID. Nuestro TA-GRU potenció a YOLOv7 no solo para aumentar la precisión de detección en un 5.86% en la precisión media promedio (mAP) en el desafiante conjunto de datos VisDrone, sino también para alcanzar una velocidad de ejecución de 24 fotogramas por segundo (fps).
Descripción
La detección de objetos basada en vehículos aéreos no tripulados (VANT) juega un papel fundamental en los campos civil y militar. Desafortunadamente, el problema es más desafiante que la detección de objetos visuales general debido al deterioro significativo de la apariencia en las imágenes capturadas por drones. Considerando que el video contiene características visuales más abundantes e información de movimiento, una mejor idea para la detección de objetos en imágenes basada en VANT es mejorar la apariencia del objetivo en el marco de referencia agregando las características en los marcos vecinos. Sin embargo, los métodos simples de agregación de características a menudo introducirán la interferencia del fondo en los objetivos. Para resolver este problema, propusimos un módulo más efectivo, denominado Unidad Recurrente de Atención Temporal (TA-GRU), para extraer información temporal efectiva basada en redes neuronales recurrentes y transformadores. TA-GRU funciona como un módulo adicional para llevar a los detectores de objetos estáticos existentes a detectores de objetos en video de alto rendimiento, con un costo computacional adicional negligible. Para validar la eficacia de nuestro módulo, seleccionamos YOLOv7 como base y realizamos experimentos exhaustivos en el conjunto de datos VisDrone2019-VID. Nuestro TA-GRU potenció a YOLOv7 no solo para aumentar la precisión de detección en un 5.86% en la precisión media promedio (mAP) en el desafiante conjunto de datos VisDrone, sino también para alcanzar una velocidad de ejecución de 24 fotogramas por segundo (fps).