logo móvil
Contáctanos

HFI-Former: Transformador de Interacción de Alta Frecuencia para la Detección Robusta de Texto en Escenas

Autores: Gao, Yubing; Gao, Quanli; Shao, Lianhe; Wang, Xihan; Liu, Lufang

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

HFI-Former: Transformador de Interacción de Alta Frecuencia para la Detección Robusta de Texto en Escenas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Detección de texto
Imágenes
Entornos complejos
Discriminación semántica
Características
Modelo basado en Transformer
Mejora de frecuencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La detección de texto en escenas tiene como objetivo localizar con precisión las instancias de texto en imágenes capturadas en entornos complejos. Su rendimiento depende en gran medida de la delimitación precisa de los límites del texto y de una discriminación semántica confiable de los fondos desordenados. Sin embargo, los métodos existentes aún tienen dificultades en tales escenas complejas. La submuestreo repetido sesga gradualmente las características hacia componentes de baja frecuencia, debilitando así los detalles de los bordes y las estructuras locales que son críticas para la morfología del texto. Además, la información semántica y los detalles locales a menudo se modelan de manera independiente. Esta falta de coordinación hace que las respuestas de alta frecuencia sean vulnerables al ruido de fondo. Para abordar estos problemas, proponemos HFI-Former, un modelo basado en Transformer diseñado para la mejora de alta frecuencia y la interacción de características. El marco consiste en extracción de características a múltiples escalas, representación mejorada por frecuencia, interacción de características guiada por semántica y codificación de Transformer deformable. Se introduce la mejora en el dominio de frecuencia para preservar las características estructurales de alta frecuencia degradadas por el submuestreo repetido. La interacción de características consciente de la semántica inyecta aún más contexto global para regular la fusión de características a múltiples escalas. Los experimentos en CTW1500, Total-Text e ICDAR1500 demuestran una precisión competitiva en la localización de límites y un fuerte rendimiento general de detección en escenas complejas.

Otros recursos que podrían interesarte

Temas Virtualpro