Fsdn-detr: mejorando el adaptador de sistemas difusos con cajas de anclaje de denoising para el aprendizaje por transferencia en la detección de objetos pequeños
Autores: Li, Zhijie; Zhang, Jiahui; Zhang, Yingjie; Yan, Dawei; Zhang, Xing; Woniak, Marcin; Dong, Wei
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Fsdn-detr: mejorando el adaptador de sistemas difusos con cajas de anclaje de denoising para el aprendizaje por transferencia en la detección de objetos pequeños
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Transformador
Detección de objetos
Sistema difuso
Detalle de grano fino
Detección de objetos pequeños
Módulos difusos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
El avance de los modelos Transformer en visión por computadora ha impulsado rápidamente numerosos enfoques de detección de objetos basados en Transformer, como DEtection TRansformer. Aunque el mecanismo de autoatención de DETR captura eficazmente el contexto global, tiene dificultades con la detección de detalles finos, limitando su eficacia en la detección de objetos pequeños donde el ruido puede ocultar o confundir fácilmente los objetivos pequeños. Para abordar estos problemas, proponemos un sistema difuso N- que involucra dos módulos clave: Codificador de Transformer de Adaptador Difuso y Decodificador de Transformer de Desruido Difuso. El Codificador de Transformer de Adaptador Difuso utiliza funciones de membresía difusa adaptativas y suavizado basado en reglas para preservar detalles críticos, como bordes y texturas, al tiempo que mitiga la pérdida de detalles finos en el procesamiento de características globales. Mientras tanto, el Decodificador de Transformer de Desruido Difuso reduce de manera efectiva la interferencia del ruido y mejora la captura de características finas, eliminando cálculos redundantes en regiones irrelevantes. Este enfoque logra un equilibrio entre la eficiencia computacional para imágenes de resolución media y la precisión requerida para la detección de objetos pequeños. Nuestra arquitectura también emplea módulos de adaptador para reducir los costos de reentrenamiento, y una estrategia de ajuste fino de dos etapas adapta módulos difusos a dominios específicos antes de armonizar el modelo con ajustes específicos de la tarea. Experimentos en los conjuntos de datos COCO y AI-TOD-V2 muestran que FSDN-DETR logra una mejora de aproximadamente el 20% en la precisión promedio para objetos muy pequeños, superando a los modelos de última generación y demostrando robustez y confiabilidad para la detección de objetos pequeños en entornos complejos.
Descripción
El avance de los modelos Transformer en visión por computadora ha impulsado rápidamente numerosos enfoques de detección de objetos basados en Transformer, como DEtection TRansformer. Aunque el mecanismo de autoatención de DETR captura eficazmente el contexto global, tiene dificultades con la detección de detalles finos, limitando su eficacia en la detección de objetos pequeños donde el ruido puede ocultar o confundir fácilmente los objetivos pequeños. Para abordar estos problemas, proponemos un sistema difuso N- que involucra dos módulos clave: Codificador de Transformer de Adaptador Difuso y Decodificador de Transformer de Desruido Difuso. El Codificador de Transformer de Adaptador Difuso utiliza funciones de membresía difusa adaptativas y suavizado basado en reglas para preservar detalles críticos, como bordes y texturas, al tiempo que mitiga la pérdida de detalles finos en el procesamiento de características globales. Mientras tanto, el Decodificador de Transformer de Desruido Difuso reduce de manera efectiva la interferencia del ruido y mejora la captura de características finas, eliminando cálculos redundantes en regiones irrelevantes. Este enfoque logra un equilibrio entre la eficiencia computacional para imágenes de resolución media y la precisión requerida para la detección de objetos pequeños. Nuestra arquitectura también emplea módulos de adaptador para reducir los costos de reentrenamiento, y una estrategia de ajuste fino de dos etapas adapta módulos difusos a dominios específicos antes de armonizar el modelo con ajustes específicos de la tarea. Experimentos en los conjuntos de datos COCO y AI-TOD-V2 muestran que FSDN-DETR logra una mejora de aproximadamente el 20% en la precisión promedio para objetos muy pequeños, superando a los modelos de última generación y demostrando robustez y confiabilidad para la detección de objetos pequeños en entornos complejos.