Modelos de Visión-Lenguaje Multilingües Conscientes de la Energía para Detección Inteligente con Drones
Autores: de Curtò, J.; Liz, Mauro; de Zarzà, I.; Calafate, Carlos T.
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Modelos de Visión-Lenguaje Multilingües Conscientes de la Energía para Detección Inteligente con Drones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Drone
Modelos de lenguaje y visión
Eficiencia energética
Rendimiento de percepción
Energía de inferencia
Operaciones multilingües
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección inteligente basada en drones depende cada vez más de los Modelos de Visión-Lenguaje (VLMs) para la interpretación de escenas en tiempo real, la detección de obstáculos y el razonamiento de navegación autónoma. Desplegar tales sistemas a gran escala exige no solo una alta precisión perceptual, sino también eficiencia energética, una restricción crítica en plataformas de Vehículos Aéreos No Tripulados (UAV) alimentadas por batería, y flexibilidad lingüística para contextos operativos multinacionales. Presentamos un marco de evaluación sistemática que evalúa conjuntamente el rendimiento de percepción y la energía de inferencia para cinco VLMs de código abierto en trece idiomas que abarcan seis familias lingüísticas, incluyendo tres variedades de bajos recursos (árabe, vasco y luxemburgués). Utilizando imágenes muestreadas del Berkeley DeepDrive 10K (BDD10K), cada modelo se evalúa en cuatro tareas de detección de dificultad creciente puntuadas a través de un backbone de transformador de oraciones, con la energía medida siguiendo la metodología del AI Energy Score (Wh por 1000 consultas) mediante muestreo continuo de potencia de GPU basado en NVML. A través de 65 observaciones de modelos de lenguaje, LLaVA-1.6 logra la puntuación de percepción más alta (S¯=0.160) mientras que Phi-3-Vision alcanza la mejor eficiencia energética (66.3 Wh/1000 consultas); el consumo de energía y la precisión de la tarea no están estadísticamente correlacionados (Spearman =0.001; p=0.995). Un modelo formal de energía de inferencia de UAV instanciado para cuatro plataformas comerciales confirma a LLaVA-1.6 como óptimo de Pareto en plataformas de carga pesada (DJI Matrice 300/350 RTK) y a LLaVA-1.5 en la Matrice 30, que tiene restricciones energéticas; UAVs compactos como el Mavic 3 Enterprise superan el presupuesto de todos los modelos evaluados a tasas de consulta estándar. Las pruebas de Friedman revelan una variabilidad significativa en la demanda de energía entre idiomas (2=40.43; p=3.5x10-8) y en el rendimiento del razonamiento de navegación (2=13.35; p=0.010). Críticamente, documentamos una doble penalización para los idiomas de bajos recursos, que incurren simultáneamente en mayores costos de energía de inferencia y menor precisión en las tareas, con implicaciones directas para el despliegue equitativo de UAV multilingües.
Descripción
La detección inteligente basada en drones depende cada vez más de los Modelos de Visión-Lenguaje (VLMs) para la interpretación de escenas en tiempo real, la detección de obstáculos y el razonamiento de navegación autónoma. Desplegar tales sistemas a gran escala exige no solo una alta precisión perceptual, sino también eficiencia energética, una restricción crítica en plataformas de Vehículos Aéreos No Tripulados (UAV) alimentadas por batería, y flexibilidad lingüística para contextos operativos multinacionales. Presentamos un marco de evaluación sistemática que evalúa conjuntamente el rendimiento de percepción y la energía de inferencia para cinco VLMs de código abierto en trece idiomas que abarcan seis familias lingüísticas, incluyendo tres variedades de bajos recursos (árabe, vasco y luxemburgués). Utilizando imágenes muestreadas del Berkeley DeepDrive 10K (BDD10K), cada modelo se evalúa en cuatro tareas de detección de dificultad creciente puntuadas a través de un backbone de transformador de oraciones, con la energía medida siguiendo la metodología del AI Energy Score (Wh por 1000 consultas) mediante muestreo continuo de potencia de GPU basado en NVML. A través de 65 observaciones de modelos de lenguaje, LLaVA-1.6 logra la puntuación de percepción más alta (S¯=0.160) mientras que Phi-3-Vision alcanza la mejor eficiencia energética (66.3 Wh/1000 consultas); el consumo de energía y la precisión de la tarea no están estadísticamente correlacionados (Spearman =0.001; p=0.995). Un modelo formal de energía de inferencia de UAV instanciado para cuatro plataformas comerciales confirma a LLaVA-1.6 como óptimo de Pareto en plataformas de carga pesada (DJI Matrice 300/350 RTK) y a LLaVA-1.5 en la Matrice 30, que tiene restricciones energéticas; UAVs compactos como el Mavic 3 Enterprise superan el presupuesto de todos los modelos evaluados a tasas de consulta estándar. Las pruebas de Friedman revelan una variabilidad significativa en la demanda de energía entre idiomas (2=40.43; p=3.5x10-8) y en el rendimiento del razonamiento de navegación (2=13.35; p=0.010). Críticamente, documentamos una doble penalización para los idiomas de bajos recursos, que incurren simultáneamente en mayores costos de energía de inferencia y menor precisión en las tareas, con implicaciones directas para el despliegue equitativo de UAV multilingües.