Parámetro eficiente ajuste para seguimiento de objetos mediante migración de decodificadores pre-entrenados
Autores: Zhang, Ruijuan; Wang, Li; Yang, Song
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Parámetro eficiente ajuste para seguimiento de objetos mediante migración de decodificadores pre-entrenados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Video
Seguimiento de objetos
Pesos pre-entrenados
Espina dorsal
Eficiencia de parámetros
Rendimiento de seguimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
El seguimiento de objetos en video ha aprovechado los pesos pre-entrenados en conjuntos de datos a gran escala. Sin embargo, la mayoría de los rastreadores ajustan por completo todos los parámetros de la columna vertebral para adaptarse a representaciones específicas del seguimiento, donde la tasa de utilización de ajuste de parámetros es ineficiente. En este documento, nuestro objetivo es explorar si se puede lograr un mejor equilibrio entre la eficiencia de los parámetros y el rendimiento del seguimiento, y utilizar completamente la ventaja de peso del entrenamiento en conjuntos de datos a gran escala. Hay dos diferencias principales respecto a un paradigma de seguimiento normal: (i) Congelamos los pesos pre-entrenados de la columna vertebral y agregamos una estructura de adaptador dinámico para cada bloque transformador para ajuste. (ii) Migramos los bloques decodificadores pre-entrenados a la cabeza de seguimiento para una mejor generalización y localización. Se realizan experimentos extensos en conjuntos de datos desafiantes comunes y conjuntos de datos para escenarios o objetivos especiales como objetos transparentes y de noche. Con la plena utilización del conocimiento pre-entrenado, encontramos a través de experimentos que unos pocos parámetros ajustados pueden compensar la brecha entre la representación pre-entrenada y la representación específica del seguimiento, especialmente para columnas vertebrales grandes. Se puede lograr un rendimiento y generalización aún mejores. Por ejemplo, nuestro rastreador AdaDe-B256 logra un AUC de 49.5 en LaSOT que contiene 150 secuencias.
Descripción
El seguimiento de objetos en video ha aprovechado los pesos pre-entrenados en conjuntos de datos a gran escala. Sin embargo, la mayoría de los rastreadores ajustan por completo todos los parámetros de la columna vertebral para adaptarse a representaciones específicas del seguimiento, donde la tasa de utilización de ajuste de parámetros es ineficiente. En este documento, nuestro objetivo es explorar si se puede lograr un mejor equilibrio entre la eficiencia de los parámetros y el rendimiento del seguimiento, y utilizar completamente la ventaja de peso del entrenamiento en conjuntos de datos a gran escala. Hay dos diferencias principales respecto a un paradigma de seguimiento normal: (i) Congelamos los pesos pre-entrenados de la columna vertebral y agregamos una estructura de adaptador dinámico para cada bloque transformador para ajuste. (ii) Migramos los bloques decodificadores pre-entrenados a la cabeza de seguimiento para una mejor generalización y localización. Se realizan experimentos extensos en conjuntos de datos desafiantes comunes y conjuntos de datos para escenarios o objetivos especiales como objetos transparentes y de noche. Con la plena utilización del conocimiento pre-entrenado, encontramos a través de experimentos que unos pocos parámetros ajustados pueden compensar la brecha entre la representación pre-entrenada y la representación específica del seguimiento, especialmente para columnas vertebrales grandes. Se puede lograr un rendimiento y generalización aún mejores. Por ejemplo, nuestro rastreador AdaDe-B256 logra un AUC de 49.5 en LaSOT que contiene 150 secuencias.