SiamUT: seguimiento similar a un transformador asimétrico siamés
Autores: Yang, Lingyu; Zhou, Hao; Yuan, Guowu; Xia, Mengen; Chen, Dong; Shi, Zhiliang; Chen, Enbang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
SiamUT: seguimiento similar a un transformador asimétrico siamés
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes siamesas
Tareas de visión por computadora
Estructura de transformador
Correlación cruzada de características
Autoatención
Red de fusión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Las redes siamesas han demostrado ser adecuadas para muchas tareas de visión por computadora, incluido el seguimiento de objetos individuales. Estos rastreadores aprovechan la estructura siamesa para beneficiarse de la correlación cruzada de características, que mide la similitud entre una plantilla de destino y la región de búsqueda correspondiente. Sin embargo, la naturaleza lineal de la operación de correlación conduce a la pérdida de información semántica importante y puede resultar en un rendimiento subóptimo cuando se enfrenta a interferencias de fondo complejas o deformaciones significativas de objetos. En este documento, presentamos la estructura Transformer, que ha tenido éxito en tareas de visión, para mejorar el rendimiento de la red siamesa en condiciones desafiantes. Al incorporar mecanismos de autoatención y atención cruzada, modificamos el Transformer original en una versión asimétrica que puede centrarse en diferentes regiones del mapa de características. Esta red de fusión tipo transformer permite procedimientos de fusión más eficientes y efectivos. Además, presentamos una estructura de salida de dos capas con cabezales de predicción desacoplados, funciones de pérdida mejoradas y postprocesamiento de penalización de ventana. Este diseño mejora el rendimiento tanto de las ramas de clasificación como de regresión. Experimentos extensos realizados en grandes conjuntos de datos públicos como LaSOT, GOT-10k y TrackingNet demuestran que nuestro rastreador propuesto SiamUT logra un rendimiento de precisión de vanguardia en la mayoría de los conjuntos de datos de referencia.
Descripción
Las redes siamesas han demostrado ser adecuadas para muchas tareas de visión por computadora, incluido el seguimiento de objetos individuales. Estos rastreadores aprovechan la estructura siamesa para beneficiarse de la correlación cruzada de características, que mide la similitud entre una plantilla de destino y la región de búsqueda correspondiente. Sin embargo, la naturaleza lineal de la operación de correlación conduce a la pérdida de información semántica importante y puede resultar en un rendimiento subóptimo cuando se enfrenta a interferencias de fondo complejas o deformaciones significativas de objetos. En este documento, presentamos la estructura Transformer, que ha tenido éxito en tareas de visión, para mejorar el rendimiento de la red siamesa en condiciones desafiantes. Al incorporar mecanismos de autoatención y atención cruzada, modificamos el Transformer original en una versión asimétrica que puede centrarse en diferentes regiones del mapa de características. Esta red de fusión tipo transformer permite procedimientos de fusión más eficientes y efectivos. Además, presentamos una estructura de salida de dos capas con cabezales de predicción desacoplados, funciones de pérdida mejoradas y postprocesamiento de penalización de ventana. Este diseño mejora el rendimiento tanto de las ramas de clasificación como de regresión. Experimentos extensos realizados en grandes conjuntos de datos públicos como LaSOT, GOT-10k y TrackingNet demuestran que nuestro rastreador propuesto SiamUT logra un rendimiento de precisión de vanguardia en la mayoría de los conjuntos de datos de referencia.