HFI-Former: Transformador de Interacción de Alta Frecuencia para la Detección Robusta de Texto en Escenas
Autores: Gao, Yubing; Gao, Quanli; Shao, Lianhe; Wang, Xihan; Liu, Lufang
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
HFI-Former: Transformador de Interacción de Alta Frecuencia para la Detección Robusta de Texto en Escenas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Detección de texto
Imágenes
Entornos complejos
Discriminación semántica
Características
Modelo basado en Transformer
Mejora de frecuencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de texto en escenas tiene como objetivo localizar con precisión las instancias de texto en imágenes capturadas en entornos complejos. Su rendimiento depende en gran medida de la delimitación precisa de los límites del texto y de una discriminación semántica confiable de los fondos desordenados. Sin embargo, los métodos existentes aún tienen dificultades en tales escenas complejas. La submuestreo repetido sesga gradualmente las características hacia componentes de baja frecuencia, debilitando así los detalles de los bordes y las estructuras locales que son críticas para la morfología del texto. Además, la información semántica y los detalles locales a menudo se modelan de manera independiente. Esta falta de coordinación hace que las respuestas de alta frecuencia sean vulnerables al ruido de fondo. Para abordar estos problemas, proponemos HFI-Former, un modelo basado en Transformer diseñado para la mejora de alta frecuencia y la interacción de características. El marco consiste en extracción de características a múltiples escalas, representación mejorada por frecuencia, interacción de características guiada por semántica y codificación de Transformer deformable. Se introduce la mejora en el dominio de frecuencia para preservar las características estructurales de alta frecuencia degradadas por el submuestreo repetido. La interacción de características consciente de la semántica inyecta aún más contexto global para regular la fusión de características a múltiples escalas. Los experimentos en CTW1500, Total-Text e ICDAR1500 demuestran una precisión competitiva en la localización de límites y un fuerte rendimiento general de detección en escenas complejas.
Descripción
La detección de texto en escenas tiene como objetivo localizar con precisión las instancias de texto en imágenes capturadas en entornos complejos. Su rendimiento depende en gran medida de la delimitación precisa de los límites del texto y de una discriminación semántica confiable de los fondos desordenados. Sin embargo, los métodos existentes aún tienen dificultades en tales escenas complejas. La submuestreo repetido sesga gradualmente las características hacia componentes de baja frecuencia, debilitando así los detalles de los bordes y las estructuras locales que son críticas para la morfología del texto. Además, la información semántica y los detalles locales a menudo se modelan de manera independiente. Esta falta de coordinación hace que las respuestas de alta frecuencia sean vulnerables al ruido de fondo. Para abordar estos problemas, proponemos HFI-Former, un modelo basado en Transformer diseñado para la mejora de alta frecuencia y la interacción de características. El marco consiste en extracción de características a múltiples escalas, representación mejorada por frecuencia, interacción de características guiada por semántica y codificación de Transformer deformable. Se introduce la mejora en el dominio de frecuencia para preservar las características estructurales de alta frecuencia degradadas por el submuestreo repetido. La interacción de características consciente de la semántica inyecta aún más contexto global para regular la fusión de características a múltiples escalas. Los experimentos en CTW1500, Total-Text e ICDAR1500 demuestran una precisión competitiva en la localización de límites y un fuerte rendimiento general de detección en escenas complejas.