Subtitulación de Imágenes Militares desde Perspectivas de UAV o UGV de Baja Altitud
Autores: Pan, Lizhi; Song, Chengtian; Gan, Xiaozheng; Xu, Keyu; Xie, Yue
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Subtitulación de Imágenes Militares desde Perspectivas de UAV o UGV de Baja Altitud
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos aéreos no tripulados
Subtitulado de imágenes militares
Aprendizaje profundo
Conjunto de datos de referencia
Arquitectura de subtitulado de imágenes
Guerra de inteligencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los vehículos aéreos no tripulados (UAV) de baja altitud y los vehículos terrestres no tripulados (UGV), que cuentan con capacidades de imagen de alta resolución y maniobrabilidad ágil, se utilizan ampliamente en escenarios militares y generan una gran cantidad de datos de imagen que pueden aprovecharse para la generación de inteligencia textual para apoyar la toma de decisiones militares. La subtitulación de imágenes militares (MilitIC), como tarea de aprendizaje visual-lenguaje, ofrece soluciones innovadoras para la comprensión de imágenes militares y la generación de inteligencia. Sin embargo, la escasez de conjuntos de datos de imágenes militares obstaculiza el avance de los métodos de MilitIC, especialmente aquellos basados en aprendizaje profundo. Para superar esta limitación, introducimos un conjunto de datos de referencia de acceso abierto, denominado conjunto de datos de Objetos Militares en Combate Real (MOCO). Presenta imágenes de combate real capturadas desde la perspectiva de UAV o UGV de baja altitud, junto con un conjunto completo de subtítulos. Además, proponemos una nueva arquitectura de subtitulación de imágenes de codificador-augmentador-decodificador con un mecanismo de incrustación de aumento de mapa (MAE), MAE-MilitIC, que aprovecha tanto las modalidades de imagen como de texto como un prefijo guía para la generación de subtítulos y cierra la brecha semántica entre los datos visuales y textuales. El mecanismo MAE mapea tanto las incrustaciones de imagen como de texto en un subespacio semántico construido por indicaciones militares relevantes, y aumenta la semántica militar de las incrustaciones de imagen con incrustaciones de texto explícitas en atributos. Finalmente, demostramos a través de experimentos extensos que MAE-MilitIC supera a los modelos existentes en rendimiento en dos conjuntos de datos desafiantes, lo que proporciona un fuerte apoyo para la guerra de inteligencia basada en UAV y UGV militares.
Descripción
Los vehículos aéreos no tripulados (UAV) de baja altitud y los vehículos terrestres no tripulados (UGV), que cuentan con capacidades de imagen de alta resolución y maniobrabilidad ágil, se utilizan ampliamente en escenarios militares y generan una gran cantidad de datos de imagen que pueden aprovecharse para la generación de inteligencia textual para apoyar la toma de decisiones militares. La subtitulación de imágenes militares (MilitIC), como tarea de aprendizaje visual-lenguaje, ofrece soluciones innovadoras para la comprensión de imágenes militares y la generación de inteligencia. Sin embargo, la escasez de conjuntos de datos de imágenes militares obstaculiza el avance de los métodos de MilitIC, especialmente aquellos basados en aprendizaje profundo. Para superar esta limitación, introducimos un conjunto de datos de referencia de acceso abierto, denominado conjunto de datos de Objetos Militares en Combate Real (MOCO). Presenta imágenes de combate real capturadas desde la perspectiva de UAV o UGV de baja altitud, junto con un conjunto completo de subtítulos. Además, proponemos una nueva arquitectura de subtitulación de imágenes de codificador-augmentador-decodificador con un mecanismo de incrustación de aumento de mapa (MAE), MAE-MilitIC, que aprovecha tanto las modalidades de imagen como de texto como un prefijo guía para la generación de subtítulos y cierra la brecha semántica entre los datos visuales y textuales. El mecanismo MAE mapea tanto las incrustaciones de imagen como de texto en un subespacio semántico construido por indicaciones militares relevantes, y aumenta la semántica militar de las incrustaciones de imagen con incrustaciones de texto explícitas en atributos. Finalmente, demostramos a través de experimentos extensos que MAE-MilitIC supera a los modelos existentes en rendimiento en dos conjuntos de datos desafiantes, lo que proporciona un fuerte apoyo para la guerra de inteligencia basada en UAV y UGV militares.