Detección de objetos de transporte en imágenes de Street View utilizando redes neuronales convolucionales descompuestas
Autores: Bai, Yunpeng; Shang, Changjing; Li, Ying; Shen, Liang; Jin, Shangzhu; Shen, Qiang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Detección de objetos de transporte en imágenes de Street View utilizando redes neuronales convolucionales descompuestas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje profundo
Detección de objetos
Imágenes de calles
Objetos de transporte
Red profunda comprimida
Descomposición de tensores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
El aprendizaje profundo ha logrado grandes éxitos en la realización de muchas tareas de reconocimiento visual, incluida la detección de objetos. Sin embargo, las redes profundas existentes son computacionalmente costosas y requieren mucha memoria, lo que dificulta su implementación en entornos con recursos limitados, como dispositivos móviles o integrados que son ampliamente utilizados por los viajeros de la ciudad. Recientemente, se ha demostrado que estimar patrones de viaje a nivel de ciudad utilizando imágenes de calles es un método potencialmente válido según un estudio de caso con Google Street View (GSV), abordando un desafío crítico en la detección de objetos de transporte. Este documento presenta una red profunda comprimida que utiliza descomposición tensorial para detectar objetos de transporte en imágenes de GSV, lo cual es sostenible y respetuoso con el medio ambiente. En particular, se crea un nuevo conjunto de datos llamado Transport Mode Share-Tokyo (TMS-Tokyo) para servir al público en la detección de objetos de transporte. Esto se basa en la selección y filtrado de 32,555 imágenes adquiridas que involucran 50,827 objetos de transporte visibles (incluidos autos, peatones, autobuses, camiones, motos, furgonetas, ciclistas y bicicletas estacionadas) de la imaginería de GSV de Tokio. Luego se propone una red neuronal convolucional comprimida (llamada SVDet) para la detección de objetos en vista de calle mediante descomposición de tren tensorial en un detector base dado. El método propuesto aquí produce una precisión promedio media (mAP) del 77.6% en el conjunto de datos recién introducido, TMS-Tokyo, necesitando solo 17.29 M parámetros y una capacidad computacional de 16.52 G FLOPs. Por lo tanto, supera notablemente el rendimiento de los métodos de vanguardia existentes documentados en la literatura.
Descripción
El aprendizaje profundo ha logrado grandes éxitos en la realización de muchas tareas de reconocimiento visual, incluida la detección de objetos. Sin embargo, las redes profundas existentes son computacionalmente costosas y requieren mucha memoria, lo que dificulta su implementación en entornos con recursos limitados, como dispositivos móviles o integrados que son ampliamente utilizados por los viajeros de la ciudad. Recientemente, se ha demostrado que estimar patrones de viaje a nivel de ciudad utilizando imágenes de calles es un método potencialmente válido según un estudio de caso con Google Street View (GSV), abordando un desafío crítico en la detección de objetos de transporte. Este documento presenta una red profunda comprimida que utiliza descomposición tensorial para detectar objetos de transporte en imágenes de GSV, lo cual es sostenible y respetuoso con el medio ambiente. En particular, se crea un nuevo conjunto de datos llamado Transport Mode Share-Tokyo (TMS-Tokyo) para servir al público en la detección de objetos de transporte. Esto se basa en la selección y filtrado de 32,555 imágenes adquiridas que involucran 50,827 objetos de transporte visibles (incluidos autos, peatones, autobuses, camiones, motos, furgonetas, ciclistas y bicicletas estacionadas) de la imaginería de GSV de Tokio. Luego se propone una red neuronal convolucional comprimida (llamada SVDet) para la detección de objetos en vista de calle mediante descomposición de tren tensorial en un detector base dado. El método propuesto aquí produce una precisión promedio media (mAP) del 77.6% en el conjunto de datos recién introducido, TMS-Tokyo, necesitando solo 17.29 M parámetros y una capacidad computacional de 16.52 G FLOPs. Por lo tanto, supera notablemente el rendimiento de los métodos de vanguardia existentes documentados en la literatura.