logo móvil
Contáctanos

Expandiendo la comprensión de vocabulario abierto para imágenes aéreas de UAV: un marco de visión-lenguaje para la segmentación semántica

Autores: Huang, Bangju; Li, Junhui; Luan, Wuyang; Tan, Jintao; Li, Chenglong; Huang, Longyang

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Expandiendo la comprensión de vocabulario abierto para imágenes aéreas de UAV: un marco de visión-lenguaje para la segmentación semántica


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Uav
Imágenes
Vocabulario-abierto
Modelo
Segmentación
Características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La comprensión de vocabulario abierto de las imágenes aéreas de UAV juega un papel crucial en la mejora del nivel de inteligencia de las aplicaciones de teledetección, como la evaluación de desastres, la agricultura de precisión y la planificación urbana. En este artículo, proponemos un modelo innovador de vocabulario abierto para imágenes de UAV, que combina métodos de visión y lenguaje para lograr un reconocimiento y segmentación eficientes de categorías no vistas mediante la generación de descripciones de imágenes desde múltiples perspectivas y la extracción de características. Para mejorar la capacidad de generalización y la robustez del modelo, adoptamos la tecnología Mixup para mezclar múltiples imágenes de UAV, generando datos de entrenamiento más diversos y representativos. Para abordar las limitaciones de los modelos de vocabulario abierto existentes en el análisis de imágenes de UAV, aprovechamos el modelo GPT para generar descripciones textuales precisas y profesionales de las imágenes aéreas, asegurando la relevancia contextual y la precisión. El codificador de imágenes utiliza una U-Net con arquitectura Mamba para extraer información clave a través de la detección de bordes y el agrupamiento por partición, mejorando aún más la efectividad de la representación de características. El codificador de texto emplea un modelo BERT ajustado para convertir descripciones textuales de imágenes de UAV en vectores de características. Se diseñaron tres funciones de pérdida clave: Pérdida de Generalización para equilibrar las puntuaciones de categorías antiguas y nuevas, pérdida de segmentación semántica para evaluar el rendimiento del modelo en tareas de segmentación de imágenes de UAV, y Pérdida Tripleta para mejorar la capacidad del modelo para distinguir características. La Función de Pérdida Integral integra estos términos para garantizar un rendimiento robusto en tareas complejas de segmentación de UAV. Los resultados experimentales demuestran que el método propuesto tiene ventajas significativas en el manejo de categorías no vistas y en la consecución de alta precisión en tareas de segmentación de imágenes de UAV, mostrando su potencial para aplicaciones prácticas en diversos escenarios de imágenes aéreas.

Otros recursos que podrían interesarte

Temas Virtualpro