BAT-Net: Red de Transformadores de Atención Bidireccional para la Desnevada de Imágenes Únicas y Predicción de Máscaras de Nieve
Autores: Zhang, Yongheng
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
BAT-Net: Red de Transformadores de Atención Bidireccional para la Desnevada de Imágenes Únicas y Predicción de Máscaras de Nieve
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Nieve
BAT-Net
Red de Transformadores de Atención Bidireccional
Eliminación de nieve
Arquitectura de doble decodificador
Conjunto de datos FallingSnow
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En la naturaleza, la nieve no es simplemente un ruido aditivo; es un velo no estacionario y semitransparente cuyas estadísticas espaciales varían con la profundidad, la iluminación y el viento. Debido a que los pipelines convencionales de dos etapas primero detectan una máscara binaria y luego rellenan las regiones ocluidas, cualquier mala clasificación temprana se incorpora de manera irreversible al resultado final, lo que lleva a texturas sobre-suavizadas o artefactos de fantasmas. Proponemos BAT-Net, una Red de Transformadores de Atención Bidireccional que enmarca la eliminación de nieve como un problema de aprendizaje de representación acoplada, desenredando conjuntamente la apariencia de la nieve y la radiancia de la escena en un solo pase hacia adelante. Nuestras contribuciones principales son las siguientes: (1) Una nueva arquitectura de doble decodificador donde un decodificador de fondo y un decodificador de nieve están acoplados a través de un Módulo de Atención Bidireccional (BAM). El BAM implementa un mecanismo continuo de predecir-verificar-corrigir, permitiendo que la rama de fondo acepte, rechace o refine dinámicamente las hipótesis de oclusión de la rama de nieve, reduciendo drásticamente la acumulación de errores. (2) Un esquema de fusión de características multi-escala ligero pero efectivo que comprende un Módulo de Conversión de Escala (SCM) y un Módulo de Agregación de Características (FAM), permitiendo que el modelo maneje la gran variación de escala entre los copos de nieve sin un costo computacional prohibitivo. (3) La introducción del conjunto de datos FallingSnow, curado para eliminar el ruido de etiquetas causado por la nieve en el suelo que no se puede eliminar en los benchmarks existentes, proporcionando un benchmark más limpio para evaluar la eliminación dinámica de nieve. Experimentos extensivos en conjuntos de datos sintéticos y del mundo real demuestran que BAT-Net establece un nuevo estado del arte. Logra un PSNR de 35.78 dB en el conjunto de datos CSD, superando al mejor modelo anterior por 1.37 dB, y también logra los mejores resultados en los conjuntos de datos SRRS (32.13 dB) y Snow100K (34.62 dB). El método propuesto tiene aplicaciones prácticas significativas en la conducción autónoma y sistemas de vigilancia, donde la eliminación precisa de nieve es crucial para mantener la claridad visual.
Descripción
En la naturaleza, la nieve no es simplemente un ruido aditivo; es un velo no estacionario y semitransparente cuyas estadísticas espaciales varían con la profundidad, la iluminación y el viento. Debido a que los pipelines convencionales de dos etapas primero detectan una máscara binaria y luego rellenan las regiones ocluidas, cualquier mala clasificación temprana se incorpora de manera irreversible al resultado final, lo que lleva a texturas sobre-suavizadas o artefactos de fantasmas. Proponemos BAT-Net, una Red de Transformadores de Atención Bidireccional que enmarca la eliminación de nieve como un problema de aprendizaje de representación acoplada, desenredando conjuntamente la apariencia de la nieve y la radiancia de la escena en un solo pase hacia adelante. Nuestras contribuciones principales son las siguientes: (1) Una nueva arquitectura de doble decodificador donde un decodificador de fondo y un decodificador de nieve están acoplados a través de un Módulo de Atención Bidireccional (BAM). El BAM implementa un mecanismo continuo de predecir-verificar-corrigir, permitiendo que la rama de fondo acepte, rechace o refine dinámicamente las hipótesis de oclusión de la rama de nieve, reduciendo drásticamente la acumulación de errores. (2) Un esquema de fusión de características multi-escala ligero pero efectivo que comprende un Módulo de Conversión de Escala (SCM) y un Módulo de Agregación de Características (FAM), permitiendo que el modelo maneje la gran variación de escala entre los copos de nieve sin un costo computacional prohibitivo. (3) La introducción del conjunto de datos FallingSnow, curado para eliminar el ruido de etiquetas causado por la nieve en el suelo que no se puede eliminar en los benchmarks existentes, proporcionando un benchmark más limpio para evaluar la eliminación dinámica de nieve. Experimentos extensivos en conjuntos de datos sintéticos y del mundo real demuestran que BAT-Net establece un nuevo estado del arte. Logra un PSNR de 35.78 dB en el conjunto de datos CSD, superando al mejor modelo anterior por 1.37 dB, y también logra los mejores resultados en los conjuntos de datos SRRS (32.13 dB) y Snow100K (34.62 dB). El método propuesto tiene aplicaciones prácticas significativas en la conducción autónoma y sistemas de vigilancia, donde la eliminación precisa de nieve es crucial para mantener la claridad visual.