Mejora de la desenfocación basada en transformadores de videos de productos en armarios visuales dinámicos
Autores: Huang, Shuangyi; Liang, Qianjie; Xie, Kai; He, Zhengfang; Wen, Chang; He, Jianbiao; Zhang, Wei
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mejora de la desenfocación basada en transformadores de videos de productos en armarios visuales dinámicos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Método propuesto: red de desenfoque de video con transformador
Detección de mercancías
Extracción de características de transformador a múltiples escalas
Mecanismo de atención interactivo temporal
Mecanismo de fusión recurrente de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 46
Citaciones: Sin citaciones
En el gabinete visual dinámico, la aparición de desenfoque de movimiento cuando los consumidores sacan productos reducirá la precisión de la detección de productos. Recientemente, aunque las redes de desenfoque de video basadas en Transformer han logrado resultados en comparación con las Redes Neuronales Convolucionales en algunos escenarios de desenfoque, siguen siendo desafiantes para el problema de desenfoque no uniforme que ocurre cuando los consumidores recogen los productos, como el problema de la alineación difícil de los fotogramas de video borrosos de productos pequeños y el problema de subutilización de la información efectiva entre los fotogramas de video de productos. Por lo tanto, se propone una red mejorada de desenfoque de video Transformer. En primer lugar, se utiliza un método de extracción de características de Transformer a múltiples escalas para el desenfoque no uniforme. En segundo lugar, para el problema de la alineación difícil de los fotogramas de video borrosos de artículos pequeños, se diseña un mecanismo de atención interactivo temporal para la alineación de fotogramas de video. Finalmente, se introduce un mecanismo de fusión recurrente de características para complementar la información efectiva de las características de los productos. Los resultados experimentales muestran que el método propuesto tiene significado práctico en la mejora de la precisión de la detección de productos. Además, en comparación con el reciente algoritmo de desenfoque Transformer Video Restoration Transformer, el Pico de Relación Señal a Ruido de este algoritmo de este documento es más alto que el del conjunto de datos Deep Video Deblurring y el conjunto de datos Fuzzy Commodity en 0.23 dB y 0.81 dB, respectivamente.
Descripción
En el gabinete visual dinámico, la aparición de desenfoque de movimiento cuando los consumidores sacan productos reducirá la precisión de la detección de productos. Recientemente, aunque las redes de desenfoque de video basadas en Transformer han logrado resultados en comparación con las Redes Neuronales Convolucionales en algunos escenarios de desenfoque, siguen siendo desafiantes para el problema de desenfoque no uniforme que ocurre cuando los consumidores recogen los productos, como el problema de la alineación difícil de los fotogramas de video borrosos de productos pequeños y el problema de subutilización de la información efectiva entre los fotogramas de video de productos. Por lo tanto, se propone una red mejorada de desenfoque de video Transformer. En primer lugar, se utiliza un método de extracción de características de Transformer a múltiples escalas para el desenfoque no uniforme. En segundo lugar, para el problema de la alineación difícil de los fotogramas de video borrosos de artículos pequeños, se diseña un mecanismo de atención interactivo temporal para la alineación de fotogramas de video. Finalmente, se introduce un mecanismo de fusión recurrente de características para complementar la información efectiva de las características de los productos. Los resultados experimentales muestran que el método propuesto tiene significado práctico en la mejora de la precisión de la detección de productos. Además, en comparación con el reciente algoritmo de desenfoque Transformer Video Restoration Transformer, el Pico de Relación Señal a Ruido de este algoritmo de este documento es más alto que el del conjunto de datos Deep Video Deblurring y el conjunto de datos Fuzzy Commodity en 0.23 dB y 0.81 dB, respectivamente.