Aprovechando Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) para la Mejora de la Detección de Objetos y la Comprensión de Escenas en Imágenes Térmicas para Sistemas de Conducción Autónoma
Autores: Ashqar, Huthaifa I.; Alhadidi, Taqwa I.; Elhenawy, Mohammed; Khanfar, Nour O.
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprovechando Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) para la Mejora de la Detección de Objetos y la Comprensión de Escenas en Imágenes Térmicas para Sistemas de Conducción Autónoma
Categoría
Procesos industriales
Subcategoría
Automatización industrial
Palabras clave
Datos de imágenes térmicas
Modelos de lenguaje multimodal grandes
Sistemas de conducción autónoma
Detección de objetos
Imágenes infrarrojas y RGB
Clasificación de objetos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
La integración de datos de imágenes térmicas con modelos de lenguaje multimodal grandes (MLLMs) ofrece avances prometedores para mejorar la seguridad y funcionalidad de los sistemas de conducción autónoma (ADS) y los sistemas de transporte inteligente (ITS). Este estudio investiga el potencial de los MLLMs, específicamente GPT-4 Vision Preview y Gemini 1.0 Pro Vision, para interpretar imágenes térmicas para aplicaciones en ADS y ITS. Se abordan dos preguntas de investigación principales: la capacidad de estos modelos para detectar y enumerar objetos dentro de imágenes térmicas, y determinar si pares de fuentes de imágenes representan la misma escena. Además, proponemos un marco para la detección y clasificación de objetos integrando imágenes infrarrojas (IR) y RGB de la misma escena sin requerir datos de localización. Este marco es particularmente valioso para mejorar la precisión de detección y clasificación en entornos donde tanto las cámaras IR como las RGB son esenciales. Al emplear aprendizaje en contexto de cero disparos para la detección de objetos y la técnica de cadena de pensamiento para el discernimiento de escenas, este estudio demuestra que los MLLMs pueden reconocer objetos como vehículos e individuos con resultados prometedores, incluso en el desafiante dominio de la imagen térmica. Los resultados indican una alta tasa de verdaderos positivos para objetos más grandes y un éxito moderado en el discernimiento de escenas, con un recall de 0.91 y una precisión de 0.79 para escenas similares. La integración de imágenes IR y RGB mejora aún más las capacidades de detección, logrando una precisión promedio de 0.93 y un recall promedio de 0.56. Este enfoque aprovecha las fortalezas complementarias de cada modalidad para compensar las limitaciones individuales. Este estudio destaca el potencial de combinar metodologías avanzadas de IA con imágenes térmicas para mejorar la precisión y fiabilidad de los ADS, al tiempo que identifica áreas de mejora en el rendimiento del modelo.
Descripción
La integración de datos de imágenes térmicas con modelos de lenguaje multimodal grandes (MLLMs) ofrece avances prometedores para mejorar la seguridad y funcionalidad de los sistemas de conducción autónoma (ADS) y los sistemas de transporte inteligente (ITS). Este estudio investiga el potencial de los MLLMs, específicamente GPT-4 Vision Preview y Gemini 1.0 Pro Vision, para interpretar imágenes térmicas para aplicaciones en ADS y ITS. Se abordan dos preguntas de investigación principales: la capacidad de estos modelos para detectar y enumerar objetos dentro de imágenes térmicas, y determinar si pares de fuentes de imágenes representan la misma escena. Además, proponemos un marco para la detección y clasificación de objetos integrando imágenes infrarrojas (IR) y RGB de la misma escena sin requerir datos de localización. Este marco es particularmente valioso para mejorar la precisión de detección y clasificación en entornos donde tanto las cámaras IR como las RGB son esenciales. Al emplear aprendizaje en contexto de cero disparos para la detección de objetos y la técnica de cadena de pensamiento para el discernimiento de escenas, este estudio demuestra que los MLLMs pueden reconocer objetos como vehículos e individuos con resultados prometedores, incluso en el desafiante dominio de la imagen térmica. Los resultados indican una alta tasa de verdaderos positivos para objetos más grandes y un éxito moderado en el discernimiento de escenas, con un recall de 0.91 y una precisión de 0.79 para escenas similares. La integración de imágenes IR y RGB mejora aún más las capacidades de detección, logrando una precisión promedio de 0.93 y un recall promedio de 0.56. Este enfoque aprovecha las fortalezas complementarias de cada modalidad para compensar las limitaciones individuales. Este estudio destaca el potencial de combinar metodologías avanzadas de IA con imágenes térmicas para mejorar la precisión y fiabilidad de los ADS, al tiempo que identifica áreas de mejora en el rendimiento del modelo.