logo móvil
Contáctanos

Detección de objetos de transporte en imágenes de Street View utilizando redes neuronales convolucionales descompuestas

Autores: Bai, Yunpeng; Shang, Changjing; Li, Ying; Shen, Liang; Jin, Shangzhu; Shen, Qiang

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Detección de objetos de transporte en imágenes de Street View utilizando redes neuronales convolucionales descompuestas


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aprendizaje profundo
Detección de objetos
Imágenes de calles
Objetos de transporte
Red profunda comprimida
Descomposición de tensores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
El aprendizaje profundo ha logrado grandes éxitos en la realización de muchas tareas de reconocimiento visual, incluida la detección de objetos. Sin embargo, las redes profundas existentes son computacionalmente costosas y requieren mucha memoria, lo que dificulta su implementación en entornos con recursos limitados, como dispositivos móviles o integrados que son ampliamente utilizados por los viajeros de la ciudad. Recientemente, se ha demostrado que estimar patrones de viaje a nivel de ciudad utilizando imágenes de calles es un método potencialmente válido según un estudio de caso con Google Street View (GSV), abordando un desafío crítico en la detección de objetos de transporte. Este documento presenta una red profunda comprimida que utiliza descomposición tensorial para detectar objetos de transporte en imágenes de GSV, lo cual es sostenible y respetuoso con el medio ambiente. En particular, se crea un nuevo conjunto de datos llamado Transport Mode Share-Tokyo (TMS-Tokyo) para servir al público en la detección de objetos de transporte. Esto se basa en la selección y filtrado de 32,555 imágenes adquiridas que involucran 50,827 objetos de transporte visibles (incluidos autos, peatones, autobuses, camiones, motos, furgonetas, ciclistas y bicicletas estacionadas) de la imaginería de GSV de Tokio. Luego se propone una red neuronal convolucional comprimida (llamada SVDet) para la detección de objetos en vista de calle mediante descomposición de tren tensorial en un detector base dado. El método propuesto aquí produce una precisión promedio media (mAP) del 77.6% en el conjunto de datos recién introducido, TMS-Tokyo, necesitando solo 17.29 M parámetros y una capacidad computacional de 16.52 G FLOPs. Por lo tanto, supera notablemente el rendimiento de los métodos de vanguardia existentes documentados en la literatura.

Otros recursos que podrían interesarte

Temas Virtualpro