logo móvil
Contáctanos

CSFF-Net: Detección de Texto en Escenas Basada en Fusión de Características de Escala Cruzada

Autores: Li, Yuan; Ibrayim, Mayire; Hamdulla, Askar

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

CSFF-Net: Detección de Texto en Escenas Basada en Fusión de Características de Escala Cruzada


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Métodos
Detección de texto
Redes neuronales
Red de detección de texto en escenas
Fusión de características
Módulo de convolución

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En los últimos años, los métodos para detectar texto en escenas reales han avanzado significativamente con el aumento de las redes neuronales. Sin embargo, debido a la limitación del campo receptivo del sistema nervioso central y la representación simple del texto mediante el uso de cajas delimitadoras rectangulares, los métodos anteriores pueden ser insuficientes para trabajar con instancias de texto más desafiantes. Para resolver este problema, este artículo propone una red de detección de texto en escenas basada en la fusión de características a escala cruzada (CSFF-Net). El marco se basa en la red de columna vertebral ligera Resnet, y el aprendizaje de características se mejora al incorporar el módulo de convolución ponderada por profundidad (DWCM) mientras se retiene la información de características original extraída por CNN. Al mismo tiempo, también se introduce el módulo de atención 3D para fusionar la información contextual de áreas adyacentes, con el fin de refinar las características en cada tamaño espacial. Además, dado que la Red de Pirámide de Características (FPN) no puede resolver completamente el problema de interdependencia mediante una simple adición elemento a elemento para procesar el flujo de información entre capas, este artículo introduce un Módulo de Fusión de Características a Nivel Cruzado (CLFFM) basado en FPN, que se denomina Red de Pirámide de Características a Nivel Cruzado (Cross-Level FPN). El CLFFM propuesto puede manejar mejor el flujo de información entre capas y generar información de características detalladas, mejorando así la precisión de la detección de regiones de texto. En comparación con el marco de red original, el marco proporciona un rendimiento más avanzado en la detección de imágenes de texto en escenas complejas, y extensos experimentos en tres conjuntos de datos desafiantes validan la viabilidad de nuestro enfoque.

Otros recursos que podrían interesarte

Temas Virtualpro