Detección de objetos visible-térmica basada en drones con transformadores y ajuste de indicaciones
Autores: Chen, Rui; Li, Dongdong; Gao, Zhinan; Kuai, Yangliu; Wang, Chengyuan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Detección de objetos visible-térmica basada en drones con transformadores y ajuste de indicaciones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos aéreos no tripulados
Detección de objetos
Arquitectura Transformer
Indicaciones visuales
Fusión de características
Vigilancia autónoma
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El uso de vehículos aéreos no tripulados (VANT) para la detección de objetos visibles-termos ha surgido como una técnica poderosa para mejorar la precisión y la resiliencia en contextos desafiantes, incluyendo condiciones de poca luz y clima severo. Sin embargo, la mayoría de la investigación existente se basa en marcos de Redes Neuronales Convolucionales (CNN), limitando la aplicación del mecanismo de atención del Transformador a meros módulos de fusión y descuidando su potencial para un modelado integral de características globales. En respuesta a esta limitación, este estudio presenta un innovador marco de detección de objetos dual-modal llamado Detección multi-modal Visual Prompt (VIP-Det) que aprovecha la arquitectura del Transformador como el extractor de características principal e integra indicaciones visuales para una fusión de características refinada. Nuestro enfoque comienza con el entrenamiento de un modelo base de un solo modal para solidificar representaciones robustas del modelo, que luego se refina a través de un ajuste fino que incorpora datos y indicaciones modales adicionales. Las pruebas en el conjunto de datos DroneVehicle muestran que nuestro algoritmo logra una precisión notable, superando a métodos comparables basados en Transformadores. Estos hallazgos indican que nuestra metodología propuesta marca un avance significativo en el ámbito de la detección de objetos basada en VANT, con una promesa significativa para mejorar las capacidades de vigilancia y monitoreo autónomos en entornos variados y desafiantes.
Descripción
El uso de vehículos aéreos no tripulados (VANT) para la detección de objetos visibles-termos ha surgido como una técnica poderosa para mejorar la precisión y la resiliencia en contextos desafiantes, incluyendo condiciones de poca luz y clima severo. Sin embargo, la mayoría de la investigación existente se basa en marcos de Redes Neuronales Convolucionales (CNN), limitando la aplicación del mecanismo de atención del Transformador a meros módulos de fusión y descuidando su potencial para un modelado integral de características globales. En respuesta a esta limitación, este estudio presenta un innovador marco de detección de objetos dual-modal llamado Detección multi-modal Visual Prompt (VIP-Det) que aprovecha la arquitectura del Transformador como el extractor de características principal e integra indicaciones visuales para una fusión de características refinada. Nuestro enfoque comienza con el entrenamiento de un modelo base de un solo modal para solidificar representaciones robustas del modelo, que luego se refina a través de un ajuste fino que incorpora datos y indicaciones modales adicionales. Las pruebas en el conjunto de datos DroneVehicle muestran que nuestro algoritmo logra una precisión notable, superando a métodos comparables basados en Transformadores. Estos hallazgos indican que nuestra metodología propuesta marca un avance significativo en el ámbito de la detección de objetos basada en VANT, con una promesa significativa para mejorar las capacidades de vigilancia y monitoreo autónomos en entornos variados y desafiantes.