logo móvil
Contáctanos

UAV-OVD: Detección de Objetos de Vocabulario Abierto en Imágenes de UAV a través de Decodificación Guiada por Texto a Múltiples Niveles

Autores: Tao, Lijie; Wei, Guoting; Wang, Zhuo; Qi, Zhaoshuai; Li, Ying; Zhang, Haokui

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

UAV-OVD: Detección de Objetos de Vocabulario Abierto en Imágenes de UAV a través de Decodificación Guiada por Texto a Múltiples Niveles


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Detección de objetos
Imágenes de UAV
Configuración de vocabulario abierto
Detector
Regiones visuales
Semántica textual

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La detección de objetos en imágenes capturadas por drones ha atraído una atención significativa debido a su amplia gama de aplicaciones en el mundo real, incluyendo vigilancia, respuesta a desastres y monitoreo ambiental. Aunque la mayoría de los métodos existentes se desarrollan bajo suposiciones de conjunto cerrado, algunos estudios recientes han comenzado a explorar la detección de vocabulario abierto o en un mundo abierto, su aplicación a imágenes de UAV sigue siendo limitada y poco explorada. En este artículo, abordamos esta limitación explorando la relación entre imágenes y semántica textual para extender la detección de objetos en imágenes de UAV a un entorno de vocabulario abierto. Proponemos un detector novedoso y eficiente llamado Detector de Vocabulario Abierto para Vehículos Aéreos No Tripulados (UAV-OVD), diseñado específicamente para escenas capturadas por drones. Para facilitar la detección de objetos de vocabulario abierto, proponemos mejoras desde tres perspectivas complementarias. Primero, a nivel de entrenamiento, diseñamos una pérdida contrastiva de región-texto para reemplazar la pérdida de clasificación convencional, permitiendo que el modelo alinee regiones visuales con descripciones textuales más allá de conjuntos de categorías fijas. Estructuralmente, basándonos en esto, introducimos un decodificador de fusión guiado por texto a múltiples niveles que integra características visuales a través de múltiples escalas espaciales bajo la guía del lenguaje, mejorando así el rendimiento general de detección y mejorando la representación y percepción de objetos pequeños. Finalmente, desde la perspectiva de los datos, enriquecemos el conjunto de datos original con etiquetas de categoría aumentadas por sinónimos, lo que permite una supervisión más flexible y semánticamente expresiva. Los experimentos realizados en dos conjuntos de datos de referencia ampliamente utilizados demuestran que nuestro enfoque logra mejoras significativas tanto en mAP medio como en Recall. Por ejemplo, para la Detección Zero-Shot en xView, UAV-OVD logra 9.9 mAP y 67.3 Recall, 1.1 y 25.6 más alto que el de YOLO-World. En términos de velocidad, UAV-OVD alcanza 53.8 FPS, casi el doble de rápido que YOLO-World y cinco veces más rápido que DetrReg, demostrando su fuerte potencial para la detección en tiempo real de vocabulario abierto en imágenes de UAV.

Otros recursos que podrían interesarte

Temas Virtualpro