Modelos de Visión-Lenguaje Multilingües Conscientes de la Energía para Detección Inteligente con Drones

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Modelos de Visión-Lenguaje Multilingües Conscientes de la Energía para Detección Inteligente con Drones

Autores: de Curtò, J.; Liz, Mauro; de Zarzà, I.; Calafate, Carlos T.

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Modelos de Visión-Lenguaje Multilingües Conscientes de la Energía para Detección Inteligente con Drones

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Drone

Modelos de lenguaje y visión

Eficiencia energética

Rendimiento de percepción

Energía de inferencia

Operaciones multilingües

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La detección inteligente basada en drones depende cada vez más de los Modelos de Visión-Lenguaje (VLMs) para la interpretación de escenas en tiempo real, la detección de obstáculos y el razonamiento de navegación autónoma. Desplegar tales sistemas a gran escala exige no solo una alta precisión perceptual, sino también eficiencia energética, una restricción crítica en plataformas de Vehículos Aéreos No Tripulados (UAV) alimentadas por batería, y flexibilidad lingüística para contextos operativos multinacionales. Presentamos un marco de evaluación sistemática que evalúa conjuntamente el rendimiento de percepción y la energía de inferencia para cinco VLMs de código abierto en trece idiomas que abarcan seis familias lingüísticas, incluyendo tres variedades de bajos recursos (árabe, vasco y luxemburgués). Utilizando imágenes muestreadas del Berkeley DeepDrive 10K (BDD10K), cada modelo se evalúa en cuatro tareas de detección de dificultad creciente puntuadas a través de un backbone de transformador de oraciones, con la energía medida siguiendo la metodología del AI Energy Score (Wh por 1000 consultas) mediante muestreo continuo de potencia de GPU basado en NVML. A través de 65 observaciones de modelos de lenguaje, LLaVA-1.6 logra la puntuación de percepción más alta (S¯=0.160) mientras que Phi-3-Vision alcanza la mejor eficiencia energética (66.3 Wh/1000 consultas); el consumo de energía y la precisión de la tarea no están estadísticamente correlacionados (Spearman =0.001; p=0.995). Un modelo formal de energía de inferencia de UAV instanciado para cuatro plataformas comerciales confirma a LLaVA-1.6 como óptimo de Pareto en plataformas de carga pesada (DJI Matrice 300/350 RTK) y a LLaVA-1.5 en la Matrice 30, que tiene restricciones energéticas; UAVs compactos como el Mavic 3 Enterprise superan el presupuesto de todos los modelos evaluados a tasas de consulta estándar. Las pruebas de Friedman revelan una variabilidad significativa en la demanda de energía entre idiomas (2=40.43; p=3.5x10-8) y en el rendimiento del razonamiento de navegación (2=13.35; p=0.010). Críticamente, documentamos una doble penalización para los idiomas de bajos recursos, que incurren simultáneamente en mayores costos de energía de inferencia y menor precisión en las tareas, con implicaciones directas para el despliegue equitativo de UAV multilingües.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro