Comprensión Semántica de Escenas con Modelos de Lenguaje Grande en Vehículos Aéreos No Tripulados
Autores: de Curtò, J.; de Zarzà, I.; Calafate, Carlos T.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Comprensión Semántica de Escenas con Modelos de Lenguaje Grande en Vehículos Aéreos No Tripulados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos aéreos no tripulados
Modelos de lenguaje grande
Modelos de lenguaje visual
Comprensión de escenas
Pipeline de detección
Métricas de legibilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los Vehículos Aéreos No Tripulados (VANT) son capaces de proporcionar pistas visuales instantáneas y un alto nivel de transferencia de datos que podrían aprovecharse aún más para abordar tareas complejas, como la comprensión semántica rica de escenas. En este trabajo, nos basamos en el uso de Modelos de Lenguaje Grande (MLGs) y Modelos de Lenguaje Visual (MLVs), junto con una tubería de detección de última generación, para proporcionar descripciones textuales literarias de escenas de VANT en cero disparos. Los textos generados logran un nivel de grado mediano en la escala GUNNING Fog en el rango de 7-12. Las aplicaciones de este marco podrían encontrarse en la industria cinematográfica y podrían mejorar la experiencia del usuario en parques temáticos o en el sector publicitario. Demostramos una implementación práctica de última generación, altamente eficiente y de bajo costo de microdrones en un entorno bien controlado y desafiante, además de proponer el uso de métricas de legibilidad estandarizadas para evaluar las descripciones mejoradas por MLG.
Descripción
Los Vehículos Aéreos No Tripulados (VANT) son capaces de proporcionar pistas visuales instantáneas y un alto nivel de transferencia de datos que podrían aprovecharse aún más para abordar tareas complejas, como la comprensión semántica rica de escenas. En este trabajo, nos basamos en el uso de Modelos de Lenguaje Grande (MLGs) y Modelos de Lenguaje Visual (MLVs), junto con una tubería de detección de última generación, para proporcionar descripciones textuales literarias de escenas de VANT en cero disparos. Los textos generados logran un nivel de grado mediano en la escala GUNNING Fog en el rango de 7-12. Las aplicaciones de este marco podrían encontrarse en la industria cinematográfica y podrían mejorar la experiencia del usuario en parques temáticos o en el sector publicitario. Demostramos una implementación práctica de última generación, altamente eficiente y de bajo costo de microdrones en un entorno bien controlado y desafiante, además de proponer el uso de métricas de legibilidad estandarizadas para evaluar las descripciones mejoradas por MLG.