Dmet: transformador mejorado con máscara dinámica para la reducción de ruido en imágenes profundas generalizable
Autores: Zhu, Tong; Li, Anqi; Wang, Yuan-Gen; Su, Wenkang; Jiang, Donghua
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Dmet: transformador mejorado con máscara dinámica para la reducción de ruido en imágenes profundas generalizable
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Tipos de ruido
Eliminación de ruido de imagen
Aprendizaje profundo
Arquitecturas basadas en transformadores
Capacidad de generalización
Transformador mejorado con máscara dinámica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Diferentes tipos de ruido son introducidos inevitablemente por los dispositivos durante los procesos de adquisición y transmisión de imágenes. Por lo tanto, la eliminación de ruido de imágenes sigue siendo un desafío crucial en la visión por computadora. El aprendizaje profundo, especialmente las arquitecturas basadas en Transformadores recientes, ha demostrado un rendimiento notable para tareas de eliminación de ruido de imágenes. Sin embargo, debido a su naturaleza basada en datos, el aprendizaje profundo puede sobreajustarse fácilmente a los datos de entrenamiento, lo que lleva a una falta de capacidad de generalización. Para abordar este problema, presentamos un novedoso Transformador Mejorado con Máscara Dinámica (DMET) para mejorar la capacidad de generalización de las redes de eliminación de ruido. Específicamente, se introduce un mecanismo de enmascaramiento adaptativo guiado por textura para simular posibles ruidos en aplicaciones prácticas. Luego, aplicamos un bloque de atención jerárquica enmascarado para mitigar la pérdida de información y aprovechar las estadísticas globales, que combina la autoatención multi-cabeza con ventana desplazada con atención de canal. Además, se aplica una máscara de atención durante el entrenamiento para reducir las discrepancias entre el entrenamiento y las pruebas. Experimentos extensos demuestran que nuestro enfoque logra un mejor rendimiento de generalización que los modelos de aprendizaje profundo de vanguardia y se puede aplicar directamente a escenarios del mundo real.
Descripción
Diferentes tipos de ruido son introducidos inevitablemente por los dispositivos durante los procesos de adquisición y transmisión de imágenes. Por lo tanto, la eliminación de ruido de imágenes sigue siendo un desafío crucial en la visión por computadora. El aprendizaje profundo, especialmente las arquitecturas basadas en Transformadores recientes, ha demostrado un rendimiento notable para tareas de eliminación de ruido de imágenes. Sin embargo, debido a su naturaleza basada en datos, el aprendizaje profundo puede sobreajustarse fácilmente a los datos de entrenamiento, lo que lleva a una falta de capacidad de generalización. Para abordar este problema, presentamos un novedoso Transformador Mejorado con Máscara Dinámica (DMET) para mejorar la capacidad de generalización de las redes de eliminación de ruido. Específicamente, se introduce un mecanismo de enmascaramiento adaptativo guiado por textura para simular posibles ruidos en aplicaciones prácticas. Luego, aplicamos un bloque de atención jerárquica enmascarado para mitigar la pérdida de información y aprovechar las estadísticas globales, que combina la autoatención multi-cabeza con ventana desplazada con atención de canal. Además, se aplica una máscara de atención durante el entrenamiento para reducir las discrepancias entre el entrenamiento y las pruebas. Experimentos extensos demuestran que nuestro enfoque logra un mejor rendimiento de generalización que los modelos de aprendizaje profundo de vanguardia y se puede aplicar directamente a escenarios del mundo real.