HFI-Former: Transformador de Interacción de Alta Frecuencia para la Detección Robusta de Texto en Escenas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

HFI-Former: Transformador de Interacción de Alta Frecuencia para la Detección Robusta de Texto en Escenas

Autores: Gao, Yubing; Gao, Quanli; Shao, Lianhe; Wang, Xihan; Liu, Lufang

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

HFI-Former: Transformador de Interacción de Alta Frecuencia para la Detección Robusta de Texto en Escenas

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Detección de texto

Imágenes

Entornos complejos

Discriminación semántica

Características

Modelo basado en Transformer

Mejora de frecuencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La detección de texto en escenas tiene como objetivo localizar con precisión las instancias de texto en imágenes capturadas en entornos complejos. Su rendimiento depende en gran medida de la delimitación precisa de los límites del texto y de una discriminación semántica confiable de los fondos desordenados. Sin embargo, los métodos existentes aún tienen dificultades en tales escenas complejas. La submuestreo repetido sesga gradualmente las características hacia componentes de baja frecuencia, debilitando así los detalles de los bordes y las estructuras locales que son críticas para la morfología del texto. Además, la información semántica y los detalles locales a menudo se modelan de manera independiente. Esta falta de coordinación hace que las respuestas de alta frecuencia sean vulnerables al ruido de fondo. Para abordar estos problemas, proponemos HFI-Former, un modelo basado en Transformer diseñado para la mejora de alta frecuencia y la interacción de características. El marco consiste en extracción de características a múltiples escalas, representación mejorada por frecuencia, interacción de características guiada por semántica y codificación de Transformer deformable. Se introduce la mejora en el dominio de frecuencia para preservar las características estructurales de alta frecuencia degradadas por el submuestreo repetido. La interacción de características consciente de la semántica inyecta aún más contexto global para regular la fusión de características a múltiples escalas. Los experimentos en CTW1500, Total-Text e ICDAR1500 demuestran una precisión competitiva en la localización de límites y un fuerte rendimiento general de detección en escenas complejas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro