De Detección a Acción: Un Marco de IA Multimodal para la Respuesta a Incidentes de Tráfico
Autores: Ahmed, Afaq; Farhan, Muhammad; Eesaar, Hassan; Chong, Kil To; Tayara, Hilal
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
De Detección a Acción: Un Marco de IA Multimodal para la Respuesta a Incidentes de Tráfico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Accidentes de tráfico
Preocupaciones ambientales
Marco de gestión de seguridad en autopistas automatizado
Visión por computadora
Procesamiento de lenguaje natural
Respuestas de emergencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Con el aumento de la incidencia de accidentes de tráfico y las crecientes preocupaciones ambientales, la demanda de sistemas avanzados para garantizar la seguridad del tráfico y del medio ambiente se ha vuelto cada vez más urgente. Este documento presenta un marco automatizado de gestión de la seguridad en las carreteras que integra visión por computadora y procesamiento de lenguaje natural para la monitorización, análisis e informes en tiempo real de incidentes de tráfico. El sistema no solo identifica accidentes, sino que también ayuda a coordinar respuestas de emergencia, como el despacho de ambulancias, servicios de bomberos y policía, mientras gestiona simultáneamente el flujo de tráfico. El enfoque comienza con la creación de un conjunto de datos diverso sobre accidentes en carreteras, combinando conjuntos de datos públicos con imágenes de drones y CCTV. YOLOv11s se vuelve a entrenar en este conjunto de datos para permitir la detección en tiempo real de elementos críticos del tráfico y anomalías, como colisiones e incendios. Se emplea un modelo de visión-lenguaje (VLM), Moondream2, para generar descripciones detalladas de las escenas, que son refinadas por un modelo de lenguaje grande (LLM), GPT 4-Turbo, para producir informes concisos de incidentes y sugerencias accionables. Estos informes se envían automáticamente a las autoridades pertinentes, asegurando una respuesta rápida y efectiva. La efectividad del sistema se valida a través del análisis de diversos videos de accidentes y pruebas de simulación de cero disparos dentro del entorno Webots. Los resultados destacan el potencial de combinar imágenes de drones y CCTV con metodologías impulsadas por IA para mejorar la gestión del tráfico y aumentar la seguridad pública. El trabajo futuro incluirá la refinación de modelos de detección, la expansión de la diversidad del conjunto de datos y el despliegue del marco en escenarios del mundo real utilizando transmisiones en vivo de drones y CCTV. Este estudio sienta las bases para soluciones escalables y fiables para abordar los desafíos críticos de la seguridad en el tráfico.
Descripción
Con el aumento de la incidencia de accidentes de tráfico y las crecientes preocupaciones ambientales, la demanda de sistemas avanzados para garantizar la seguridad del tráfico y del medio ambiente se ha vuelto cada vez más urgente. Este documento presenta un marco automatizado de gestión de la seguridad en las carreteras que integra visión por computadora y procesamiento de lenguaje natural para la monitorización, análisis e informes en tiempo real de incidentes de tráfico. El sistema no solo identifica accidentes, sino que también ayuda a coordinar respuestas de emergencia, como el despacho de ambulancias, servicios de bomberos y policía, mientras gestiona simultáneamente el flujo de tráfico. El enfoque comienza con la creación de un conjunto de datos diverso sobre accidentes en carreteras, combinando conjuntos de datos públicos con imágenes de drones y CCTV. YOLOv11s se vuelve a entrenar en este conjunto de datos para permitir la detección en tiempo real de elementos críticos del tráfico y anomalías, como colisiones e incendios. Se emplea un modelo de visión-lenguaje (VLM), Moondream2, para generar descripciones detalladas de las escenas, que son refinadas por un modelo de lenguaje grande (LLM), GPT 4-Turbo, para producir informes concisos de incidentes y sugerencias accionables. Estos informes se envían automáticamente a las autoridades pertinentes, asegurando una respuesta rápida y efectiva. La efectividad del sistema se valida a través del análisis de diversos videos de accidentes y pruebas de simulación de cero disparos dentro del entorno Webots. Los resultados destacan el potencial de combinar imágenes de drones y CCTV con metodologías impulsadas por IA para mejorar la gestión del tráfico y aumentar la seguridad pública. El trabajo futuro incluirá la refinación de modelos de detección, la expansión de la diversidad del conjunto de datos y el despliegue del marco en escenarios del mundo real utilizando transmisiones en vivo de drones y CCTV. Este estudio sienta las bases para soluciones escalables y fiables para abordar los desafíos críticos de la seguridad en el tráfico.