Avanzando en la Detección Temprana de Incendios Forestales: Integración de Modelos de Lenguaje Visual con Sensores Remotos de Vehículos Aéreos No Tripulados para una Mayor Conciencia Situacional
Autores: Seidel, Leon; Gehringer, Simon; Raczok, Tobias; Ivens, Sven-Nicolas; Eckardt, Bernd; Maerz, Martin
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Avanzando en la Detección Temprana de Incendios Forestales: Integración de Modelos de Lenguaje Visual con Sensores Remotos de Vehículos Aéreos No Tripulados para una Mayor Conciencia Situacional
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Detección de incendios forestales
Técnicas de visión por computadora
Modelos de Lenguaje Visual
Imágenes de Vehículos Aéreos No Tripulados
Escenas de incendios forestales
MLVs
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección temprana de incendios forestales es crítica para los esfuerzos de supresión efectivos, lo que requiere alertas rápidas y localización precisa. Si bien las técnicas de visión por computadora ofrecen una detección de incendios confiable, a menudo carecen de comprensión contextual. Este documento aborda esta limitación al utilizar Modelos de Lenguaje Visual (VLMs) para generar descripciones estructuradas de escenas a partir de imágenes de Vehículos Aéreos No Tripulados (UAV). La teledetección basada en UAV proporciona diversas perspectivas para incendios forestales potenciales, y los VLMs de última generación permiten una caracterización rápida y detallada de las escenas. Evaluamos tanto VLMs basados en la nube (OpenAI, Google DeepMind) como VLMs de peso abierto, desplegados localmente, en un nuevo conjunto de datos de evaluación específicamente curado para comprender escenas de incendios forestales. Nuestros resultados demuestran que VLMs relativamente compactos y ajustados pueden proporcionar información contextual rica, incluyendo tipo de bosque, estado del fuego y tipo de fuego. Específicamente, nuestro modelo de mejor rendimiento, ForestFireVLM-7B (ajustado a partir de Qwen2-5-VL-7B), logró una precisión promedio del 76.6% en todas las categorías, superando la línea base de peso cerrado más fuerte (Gemini 2.0 Pro con un 65.5%). Además, la evaluación de cero disparos en el conjunto de datos FIgLib, disponible públicamente, demostró una precisión de detección de humo de última generación utilizando VLMs. Nuestros hallazgos destacan el potencial de los VLMs ajustados y de peso abierto para mejorar la conciencia situacional sobre incendios forestales a través de una interpretación detallada de las escenas.
Descripción
La detección temprana de incendios forestales es crítica para los esfuerzos de supresión efectivos, lo que requiere alertas rápidas y localización precisa. Si bien las técnicas de visión por computadora ofrecen una detección de incendios confiable, a menudo carecen de comprensión contextual. Este documento aborda esta limitación al utilizar Modelos de Lenguaje Visual (VLMs) para generar descripciones estructuradas de escenas a partir de imágenes de Vehículos Aéreos No Tripulados (UAV). La teledetección basada en UAV proporciona diversas perspectivas para incendios forestales potenciales, y los VLMs de última generación permiten una caracterización rápida y detallada de las escenas. Evaluamos tanto VLMs basados en la nube (OpenAI, Google DeepMind) como VLMs de peso abierto, desplegados localmente, en un nuevo conjunto de datos de evaluación específicamente curado para comprender escenas de incendios forestales. Nuestros resultados demuestran que VLMs relativamente compactos y ajustados pueden proporcionar información contextual rica, incluyendo tipo de bosque, estado del fuego y tipo de fuego. Específicamente, nuestro modelo de mejor rendimiento, ForestFireVLM-7B (ajustado a partir de Qwen2-5-VL-7B), logró una precisión promedio del 76.6% en todas las categorías, superando la línea base de peso cerrado más fuerte (Gemini 2.0 Pro con un 65.5%). Además, la evaluación de cero disparos en el conjunto de datos FIgLib, disponible públicamente, demostró una precisión de detección de humo de última generación utilizando VLMs. Nuestros hallazgos destacan el potencial de los VLMs ajustados y de peso abierto para mejorar la conciencia situacional sobre incendios forestales a través de una interpretación detallada de las escenas.