Segmentación de objetos en video utilizando una red siamesa basada en atención multi-escala
Autores: Zhu, Zhiliang; Qiu, Leiningxin; Wang, Jiaxin; Xiong, Jinquan; Peng, Hua
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Segmentación de objetos en video utilizando una red siamesa basada en atención multi-escala
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Video
Segmentación
Red
Características
Movimiento
Marco
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
La segmentación de objetivos en video es un problema fundamental en visión por computadora que tiene como objetivo segmentar objetivos de un fondo mediante el aprendizaje de su información de apariencia e información de movimiento. En este estudio, se propuso una red de segmentación de objetivos en video basada en la estructura Siamesa. Esta red tiene dos entradas: el fotograma de video actual, utilizado como la entrada principal, y el fotograma adyacente, utilizado como la entrada auxiliar. Los módulos de procesamiento para las entradas utilizan la misma estructura, estrategia de optimización y pesos de codificador. La entrada se codifica para obtener características con diferentes resoluciones, de las cuales se pueden obtener buenas características de apariencia del objetivo. Después del procesamiento utilizando la capa de codificación, se aprenden las características de movimiento del objetivo utilizando un decodificador de fusión de características multi-escala basado en un mecanismo de atención. Los resultados de segmentación predichos finales se calcularon a partir de una capa de características decodificadas. El marco de segmentación de objetos en video propuesto en este estudio logró resultados óptimos en CDNet2014 y FBMS-3D, con puntajes de 78.36 y 86.71, respectivamente. Superó al método clasificado en segundo lugar por 4.3 en el conjunto de datos CDNet2014 y por 0.77 en el conjunto de datos FBMS-3D. Se lograron resultados subóptimos en los conjuntos de datos de segmentación de objetivos primarios en video SegTrackV2 y DAVIS2016, con puntajes de 60.57 y 81.08, respectivamente.
Descripción
La segmentación de objetivos en video es un problema fundamental en visión por computadora que tiene como objetivo segmentar objetivos de un fondo mediante el aprendizaje de su información de apariencia e información de movimiento. En este estudio, se propuso una red de segmentación de objetivos en video basada en la estructura Siamesa. Esta red tiene dos entradas: el fotograma de video actual, utilizado como la entrada principal, y el fotograma adyacente, utilizado como la entrada auxiliar. Los módulos de procesamiento para las entradas utilizan la misma estructura, estrategia de optimización y pesos de codificador. La entrada se codifica para obtener características con diferentes resoluciones, de las cuales se pueden obtener buenas características de apariencia del objetivo. Después del procesamiento utilizando la capa de codificación, se aprenden las características de movimiento del objetivo utilizando un decodificador de fusión de características multi-escala basado en un mecanismo de atención. Los resultados de segmentación predichos finales se calcularon a partir de una capa de características decodificadas. El marco de segmentación de objetos en video propuesto en este estudio logró resultados óptimos en CDNet2014 y FBMS-3D, con puntajes de 78.36 y 86.71, respectivamente. Superó al método clasificado en segundo lugar por 4.3 en el conjunto de datos CDNet2014 y por 0.77 en el conjunto de datos FBMS-3D. Se lograron resultados subóptimos en los conjuntos de datos de segmentación de objetivos primarios en video SegTrackV2 y DAVIS2016, con puntajes de 60.57 y 81.08, respectivamente.