Procesamiento e integración de datos de imagen multimodal que respaldan la detección de comportamientos relacionados con el nivel de concentración reducido de los usuarios de vehículos motorizados
Autores: Smolinski, Anton; Forczmanski, Pawe; Nowosielski, Adam
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Procesamiento e integración de datos de imagen multimodal que respaldan la detección de comportamientos relacionados con el nivel de concentración reducido de los usuarios de vehículos motorizados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección
Comportamientos
Multimodal
Distracción
Aprendizaje profundo
Conductor
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
Este trabajo presenta un marco integral para la detección de comportamientos indicativos de niveles reducidos de concentración entre los operadores de vehículos automotores, aprovechando datos de imagen multimodales. Al integrar modelos dedicados de aprendizaje profundo, nuestro enfoque analiza sistemáticamente imágenes RGB, mapas de profundidad e imágenes térmicas para identificar signos de somnolencia y distracción del conductor. Nuestra contribución novedosa incluye la utilización de redes neuronales convolucionales (CNN) de última generación y redes neuronales bidireccionales de memoria a corto y largo plazo (Bi-LSTM) para la extracción y clasificación efectiva de características en diversos escenarios de distracción. Además, exploramos diversas técnicas de fusión de datos, demostrando su impacto en la mejora de la precisión de detección. La importancia de este trabajo radica en su potencial para mejorar la seguridad vial al proporcionar herramientas más confiables y eficientes para el monitoreo en tiempo real de la atención del conductor, reduciendo así el riesgo de accidentes causados por distracciones y fatiga. Los métodos propuestos son evaluados exhaustivamente utilizando un conjunto de datos de referencia multimodal, con resultados que muestran sus capacidades sustanciales que conducen al desarrollo de tecnologías que mejoran la seguridad en entornos vehiculares. El desafío principal abordado en este estudio es la detección de estados del conductor que no dependen de las condiciones de iluminación. Nuestra solución emplea la integración de datos multimodales, que abarca imágenes RGB, térmicas y de profundidad, para garantizar un monitoreo robusto y preciso independientemente de las variaciones de iluminación externa.
Descripción
Este trabajo presenta un marco integral para la detección de comportamientos indicativos de niveles reducidos de concentración entre los operadores de vehículos automotores, aprovechando datos de imagen multimodales. Al integrar modelos dedicados de aprendizaje profundo, nuestro enfoque analiza sistemáticamente imágenes RGB, mapas de profundidad e imágenes térmicas para identificar signos de somnolencia y distracción del conductor. Nuestra contribución novedosa incluye la utilización de redes neuronales convolucionales (CNN) de última generación y redes neuronales bidireccionales de memoria a corto y largo plazo (Bi-LSTM) para la extracción y clasificación efectiva de características en diversos escenarios de distracción. Además, exploramos diversas técnicas de fusión de datos, demostrando su impacto en la mejora de la precisión de detección. La importancia de este trabajo radica en su potencial para mejorar la seguridad vial al proporcionar herramientas más confiables y eficientes para el monitoreo en tiempo real de la atención del conductor, reduciendo así el riesgo de accidentes causados por distracciones y fatiga. Los métodos propuestos son evaluados exhaustivamente utilizando un conjunto de datos de referencia multimodal, con resultados que muestran sus capacidades sustanciales que conducen al desarrollo de tecnologías que mejoran la seguridad en entornos vehiculares. El desafío principal abordado en este estudio es la detección de estados del conductor que no dependen de las condiciones de iluminación. Nuestra solución emplea la integración de datos multimodales, que abarca imágenes RGB, térmicas y de profundidad, para garantizar un monitoreo robusto y preciso independientemente de las variaciones de iluminación externa.