Una red siamesa de características consciente de la frecuencia de aprendizaje para el seguimiento visual en tiempo real
Autores: Yang, Yuxiang; Xing, Weiwei; Zhang, Shunli; Yu, Qi; Guo, Xiaoyu; Guo, Min
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Una red siamesa de características consciente de la frecuencia de aprendizaje para el seguimiento visual en tiempo real
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Seguimiento visual de objetos
Redes siamesas
Característica consciente de la frecuencia
Robusto
Escenas complejas
Aumento independiente de los datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
El seguimiento de objetos visuales mediante redes Siamesas ha logrado un rendimiento favorable en precisión y velocidad. Sin embargo, las características utilizadas en las redes Siamesas contienen información espacialmente redundante, lo que aumenta la computación y limita la capacidad discriminativa de las redes Siamesas. Para abordar este problema, presentamos un método novedoso de características sensibles a la frecuencia (FAF) para un seguimiento robusto de objetos visuales en escenas complejas. A diferencia de trabajos anteriores, que seleccionan características de diferentes canales o capas, el método propuesto factoriza el mapa de características en multi-frecuencia y reduce la información de baja frecuencia que es espacialmente redundante. Al reducir la resolución del mapa de baja frecuencia, se ahorra computación y se aumenta el campo receptivo de la capa para obtener información más discriminativa. Para mejorar aún más el rendimiento de FAF, diseñamos una innovadora técnica de aumento de datos independiente del objeto a seguir para mejorar la capacidad discriminativa del rastreador, que mejora la representación lineal entre las muestras de entrenamiento mediante combinaciones convexas de las imágenes y etiquetas. Finalmente, se propone una estrategia de juicio conjunta para ajustar el resultado del cuadro delimitador que combina la intersección sobre la unión (IoU) y las puntuaciones de clasificación para mejorar la precisión del seguimiento. Experimentos extensos en 5 desafiantes puntos de referencia demuestran que nuestro método FAF tiene un rendimiento favorable frente a los métodos de seguimiento SOTA mientras se ejecuta alrededor de 45 cuadros por segundo.
Descripción
El seguimiento de objetos visuales mediante redes Siamesas ha logrado un rendimiento favorable en precisión y velocidad. Sin embargo, las características utilizadas en las redes Siamesas contienen información espacialmente redundante, lo que aumenta la computación y limita la capacidad discriminativa de las redes Siamesas. Para abordar este problema, presentamos un método novedoso de características sensibles a la frecuencia (FAF) para un seguimiento robusto de objetos visuales en escenas complejas. A diferencia de trabajos anteriores, que seleccionan características de diferentes canales o capas, el método propuesto factoriza el mapa de características en multi-frecuencia y reduce la información de baja frecuencia que es espacialmente redundante. Al reducir la resolución del mapa de baja frecuencia, se ahorra computación y se aumenta el campo receptivo de la capa para obtener información más discriminativa. Para mejorar aún más el rendimiento de FAF, diseñamos una innovadora técnica de aumento de datos independiente del objeto a seguir para mejorar la capacidad discriminativa del rastreador, que mejora la representación lineal entre las muestras de entrenamiento mediante combinaciones convexas de las imágenes y etiquetas. Finalmente, se propone una estrategia de juicio conjunta para ajustar el resultado del cuadro delimitador que combina la intersección sobre la unión (IoU) y las puntuaciones de clasificación para mejorar la precisión del seguimiento. Experimentos extensos en 5 desafiantes puntos de referencia demuestran que nuestro método FAF tiene un rendimiento favorable frente a los métodos de seguimiento SOTA mientras se ejecuta alrededor de 45 cuadros por segundo.