Detección de Objetos de Vocabulário Abierto en Imágenes de UAV: Una Revisión y Perspectivas Futuras
Autores: Zhou, Yang; Li, Junjie; Ou, Congyang; Yan, Dawei; Zhang, Haokui; Xue, Xizhe
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Detección de Objetos de Vocabulário Abierto en Imágenes de UAV: Una Revisión y Perspectivas Futuras
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aplicaciones
Detección de objetos en imágenes aéreas
Vehículo aéreo no tripulado
Alineación de texto-imagen de modo cruzado
Detección de objetos de vocabulario abierto
Visión de UAV
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Debido a sus amplias aplicaciones, la detección de objetos en imágenes aéreas ha sido durante mucho tiempo un tema candente en la visión por computadora. En los últimos años, los avances en la tecnología de vehículos aéreos no tripulados (VANT) han impulsado aún más este campo a nuevas alturas, dando lugar a una gama más amplia de requisitos de aplicación. Sin embargo, los métodos tradicionales de detección de objetos aéreos con VANT se centran principalmente en detectar categorías predefinidas, lo que limita significativamente su aplicabilidad. La llegada de la alineación de texto-imagen de modalidad cruzada (por ejemplo, CLIP) ha superado esta limitación, permitiendo la detección de objetos de vocabulario abierto (OVOD), que puede identificar objetos previamente no vistos a través de descripciones en lenguaje natural. Este avance mejora significativamente la inteligencia y autonomía de los VANT en la comprensión de escenas aéreas. Este documento presenta una encuesta completa sobre OVOD en el contexto de escenas aéreas de VANT. Comenzamos alineando los principios fundamentales de OVOD con las características únicas de la visión de VANT, preparando el escenario para una discusión especializada. Basándonos en esta base, construimos una taxonomía sistemática que categoriza los métodos existentes de OVOD para imágenes aéreas y proporciona una visión general completa de los conjuntos de datos relevantes. Esta revisión estructurada nos permite analizar críticamente los principales desafíos y problemas abiertos en la intersección de estos campos. Finalmente, basándonos en este análisis, esbozamos direcciones de investigación futuras prometedoras y perspectivas de aplicación. Esta encuesta tiene como objetivo proporcionar una hoja de ruta clara y una referencia valiosa tanto para los recién llegados como para los investigadores experimentados, fomentando la innovación en este dominio en rápida evolución. Mantenemos un seguimiento de trabajos relacionados en un repositorio público de GitHub.
Descripción
Debido a sus amplias aplicaciones, la detección de objetos en imágenes aéreas ha sido durante mucho tiempo un tema candente en la visión por computadora. En los últimos años, los avances en la tecnología de vehículos aéreos no tripulados (VANT) han impulsado aún más este campo a nuevas alturas, dando lugar a una gama más amplia de requisitos de aplicación. Sin embargo, los métodos tradicionales de detección de objetos aéreos con VANT se centran principalmente en detectar categorías predefinidas, lo que limita significativamente su aplicabilidad. La llegada de la alineación de texto-imagen de modalidad cruzada (por ejemplo, CLIP) ha superado esta limitación, permitiendo la detección de objetos de vocabulario abierto (OVOD), que puede identificar objetos previamente no vistos a través de descripciones en lenguaje natural. Este avance mejora significativamente la inteligencia y autonomía de los VANT en la comprensión de escenas aéreas. Este documento presenta una encuesta completa sobre OVOD en el contexto de escenas aéreas de VANT. Comenzamos alineando los principios fundamentales de OVOD con las características únicas de la visión de VANT, preparando el escenario para una discusión especializada. Basándonos en esta base, construimos una taxonomía sistemática que categoriza los métodos existentes de OVOD para imágenes aéreas y proporciona una visión general completa de los conjuntos de datos relevantes. Esta revisión estructurada nos permite analizar críticamente los principales desafíos y problemas abiertos en la intersección de estos campos. Finalmente, basándonos en este análisis, esbozamos direcciones de investigación futuras prometedoras y perspectivas de aplicación. Esta encuesta tiene como objetivo proporcionar una hoja de ruta clara y una referencia valiosa tanto para los recién llegados como para los investigadores experimentados, fomentando la innovación en este dominio en rápida evolución. Mantenemos un seguimiento de trabajos relacionados en un repositorio público de GitHub.