logo móvil
Contáctanos

Comprensión Semántica de Escenas con Modelos de Lenguaje Grande en Vehículos Aéreos No Tripulados

Autores: de Curtò, J.; de Zarzà, I.; Calafate, Carlos T.

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Comprensión Semántica de Escenas con Modelos de Lenguaje Grande en Vehículos Aéreos No Tripulados


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados
Modelos de lenguaje grande
Modelos de lenguaje visual
Comprensión de escenas
Pipeline de detección
Métricas de legibilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los Vehículos Aéreos No Tripulados (VANT) son capaces de proporcionar pistas visuales instantáneas y un alto nivel de transferencia de datos que podrían aprovecharse aún más para abordar tareas complejas, como la comprensión semántica rica de escenas. En este trabajo, nos basamos en el uso de Modelos de Lenguaje Grande (MLGs) y Modelos de Lenguaje Visual (MLVs), junto con una tubería de detección de última generación, para proporcionar descripciones textuales literarias de escenas de VANT en cero disparos. Los textos generados logran un nivel de grado mediano en la escala GUNNING Fog en el rango de 7-12. Las aplicaciones de este marco podrían encontrarse en la industria cinematográfica y podrían mejorar la experiencia del usuario en parques temáticos o en el sector publicitario. Demostramos una implementación práctica de última generación, altamente eficiente y de bajo costo de microdrones en un entorno bien controlado y desafiante, además de proponer el uso de métricas de legibilidad estandarizadas para evaluar las descripciones mejoradas por MLG.

Otros recursos que podrían interesarte

Temas Virtualpro