logo móvil
Contáctanos

Detección de objetos en video de drones con unidad recurrente de puerta de atención temporal basada en transformador

Autores: Zhou, Zihao; Yu, Xianguo; Chen, Xiangcheng

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Detección de objetos en video de drones con unidad recurrente de puerta de atención temporal basada en transformador


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo aéreo no tripulado
Detección de objetos
Características visuales
Información de movimiento
Atención temporal
Redes neuronales recurrentes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La detección de objetos basada en vehículos aéreos no tripulados (VANT) juega un papel fundamental en los campos civil y militar. Desafortunadamente, el problema es más desafiante que la detección de objetos visuales general debido al deterioro significativo de la apariencia en las imágenes capturadas por drones. Considerando que el video contiene características visuales más abundantes e información de movimiento, una mejor idea para la detección de objetos en imágenes basada en VANT es mejorar la apariencia del objetivo en el marco de referencia agregando las características en los marcos vecinos. Sin embargo, los métodos simples de agregación de características a menudo introducirán la interferencia del fondo en los objetivos. Para resolver este problema, propusimos un módulo más efectivo, denominado Unidad Recurrente de Atención Temporal (TA-GRU), para extraer información temporal efectiva basada en redes neuronales recurrentes y transformadores. TA-GRU funciona como un módulo adicional para llevar a los detectores de objetos estáticos existentes a detectores de objetos en video de alto rendimiento, con un costo computacional adicional negligible. Para validar la eficacia de nuestro módulo, seleccionamos YOLOv7 como base y realizamos experimentos exhaustivos en el conjunto de datos VisDrone2019-VID. Nuestro TA-GRU potenció a YOLOv7 no solo para aumentar la precisión de detección en un 5.86% en la precisión media promedio (mAP) en el desafiante conjunto de datos VisDrone, sino también para alcanzar una velocidad de ejecución de 24 fotogramas por segundo (fps).

Otros recursos que podrían interesarte

Temas Virtualpro