Hacia la segmentación semántica de vocabulario abierto en imágenes de UAV de alta resolución
Autores: Chen, Zimo; Xie, Yuxiang; Wei, Yingmei
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Hacia la segmentación semántica de vocabulario abierto en imágenes de UAV de alta resolución
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Segmentación semántica de imágenes
Segmentación semántica de vocabulario abierto
Marco HR-Seg
Imágenes de alta resolución
Contexto global
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La segmentación semántica de imágenes de vehículos aéreos no tripulados (VANT) enfrenta desafíos para reconocer categorías novedosas debido a los paradigmas de entrenamiento de conjunto cerrado y al alto costo de la anotación. Mientras que la segmentación semántica de vocabulario abierto (OVSS) aprovecha modelos de visión-lenguaje como CLIP para permitir un reconocimiento de clases flexible, los métodos existentes están limitados a imágenes de baja resolución, lo que obstaculiza su aplicabilidad a datos de VANT de alta resolución. Las adaptaciones actuales, como la reducción de resolución, el recorte o la modificación de CLIP, comprometen ya sea la preservación de detalles, el contexto global o la eficiencia computacional. Para abordar estas limitaciones, proponemos HR-Seg, el primer marco de OVSS de alta resolución para imágenes de VANT, que integra de manera efectiva el contexto global de imágenes reducidas con detalles locales de subimágenes recortadas a través de una nueva arquitectura de volumen de costos. Introducimos un codificador mejorado en detalles con incrustaciones multiescala y un decodificador consciente de detalles para el refinamiento progresivo de máscaras, diseñado específicamente para manejar objetos de diferentes tamaños en imágenes aéreas. Evaluamos los métodos OVSS existentes junto con HR-Seg, entrenando en el conjunto de datos VDD y probando en tres benchmarks: VDD, UDD y UAVid. HR-Seg logró un rendimiento superior con puntuaciones de mIoU de 89.38, 73.67 y 55.23, respectivamente, superando todos los enfoques de OVSS de última generación comparados. Estos resultados demuestran la excepcional capacidad de HR-Seg para procesar imágenes de VANT de alta resolución.
Descripción
La segmentación semántica de imágenes de vehículos aéreos no tripulados (VANT) enfrenta desafíos para reconocer categorías novedosas debido a los paradigmas de entrenamiento de conjunto cerrado y al alto costo de la anotación. Mientras que la segmentación semántica de vocabulario abierto (OVSS) aprovecha modelos de visión-lenguaje como CLIP para permitir un reconocimiento de clases flexible, los métodos existentes están limitados a imágenes de baja resolución, lo que obstaculiza su aplicabilidad a datos de VANT de alta resolución. Las adaptaciones actuales, como la reducción de resolución, el recorte o la modificación de CLIP, comprometen ya sea la preservación de detalles, el contexto global o la eficiencia computacional. Para abordar estas limitaciones, proponemos HR-Seg, el primer marco de OVSS de alta resolución para imágenes de VANT, que integra de manera efectiva el contexto global de imágenes reducidas con detalles locales de subimágenes recortadas a través de una nueva arquitectura de volumen de costos. Introducimos un codificador mejorado en detalles con incrustaciones multiescala y un decodificador consciente de detalles para el refinamiento progresivo de máscaras, diseñado específicamente para manejar objetos de diferentes tamaños en imágenes aéreas. Evaluamos los métodos OVSS existentes junto con HR-Seg, entrenando en el conjunto de datos VDD y probando en tres benchmarks: VDD, UDD y UAVid. HR-Seg logró un rendimiento superior con puntuaciones de mIoU de 89.38, 73.67 y 55.23, respectivamente, superando todos los enfoques de OVSS de última generación comparados. Estos resultados demuestran la excepcional capacidad de HR-Seg para procesar imágenes de VANT de alta resolución.