logo móvil
Contáctanos

Aprovechando Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) para la Mejora de la Detección de Objetos y la Comprensión de Escenas en Imágenes Térmicas para Sistemas de Conducción Autónoma

Autores: Ashqar, Huthaifa I.; Alhadidi, Taqwa I.; Elhenawy, Mohammed; Khanfar, Nour O.

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Aprovechando Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) para la Mejora de la Detección de Objetos y la Comprensión de Escenas en Imágenes Térmicas para Sistemas de Conducción Autónoma


Categoría

Procesos industriales

Subcategoría

Automatización industrial

Palabras clave

Datos de imágenes térmicas
Modelos de lenguaje multimodal grandes
Sistemas de conducción autónoma
Detección de objetos
Imágenes infrarrojas y RGB
Clasificación de objetos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
La integración de datos de imágenes térmicas con modelos de lenguaje multimodal grandes (MLLMs) ofrece avances prometedores para mejorar la seguridad y funcionalidad de los sistemas de conducción autónoma (ADS) y los sistemas de transporte inteligente (ITS). Este estudio investiga el potencial de los MLLMs, específicamente GPT-4 Vision Preview y Gemini 1.0 Pro Vision, para interpretar imágenes térmicas para aplicaciones en ADS y ITS. Se abordan dos preguntas de investigación principales: la capacidad de estos modelos para detectar y enumerar objetos dentro de imágenes térmicas, y determinar si pares de fuentes de imágenes representan la misma escena. Además, proponemos un marco para la detección y clasificación de objetos integrando imágenes infrarrojas (IR) y RGB de la misma escena sin requerir datos de localización. Este marco es particularmente valioso para mejorar la precisión de detección y clasificación en entornos donde tanto las cámaras IR como las RGB son esenciales. Al emplear aprendizaje en contexto de cero disparos para la detección de objetos y la técnica de cadena de pensamiento para el discernimiento de escenas, este estudio demuestra que los MLLMs pueden reconocer objetos como vehículos e individuos con resultados prometedores, incluso en el desafiante dominio de la imagen térmica. Los resultados indican una alta tasa de verdaderos positivos para objetos más grandes y un éxito moderado en el discernimiento de escenas, con un recall de 0.91 y una precisión de 0.79 para escenas similares. La integración de imágenes IR y RGB mejora aún más las capacidades de detección, logrando una precisión promedio de 0.93 y un recall promedio de 0.56. Este enfoque aprovecha las fortalezas complementarias de cada modalidad para compensar las limitaciones individuales. Este estudio destaca el potencial de combinar metodologías avanzadas de IA con imágenes térmicas para mejorar la precisión y fiabilidad de los ADS, al tiempo que identifica áreas de mejora en el rendimiento del modelo.

Otros recursos que podrían interesarte

Temas Virtualpro