CSFF-Net: Detección de Texto en Escenas Basada en Fusión de Características de Escala Cruzada
Autores: Li, Yuan; Ibrayim, Mayire; Hamdulla, Askar
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
CSFF-Net: Detección de Texto en Escenas Basada en Fusión de Características de Escala Cruzada
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Métodos
Detección de texto
Redes neuronales
Red de detección de texto en escenas
Fusión de características
Módulo de convolución
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los últimos años, los métodos para detectar texto en escenas reales han avanzado significativamente con el aumento de las redes neuronales. Sin embargo, debido a la limitación del campo receptivo del sistema nervioso central y la representación simple del texto mediante el uso de cajas delimitadoras rectangulares, los métodos anteriores pueden ser insuficientes para trabajar con instancias de texto más desafiantes. Para resolver este problema, este artículo propone una red de detección de texto en escenas basada en la fusión de características a escala cruzada (CSFF-Net). El marco se basa en la red de columna vertebral ligera Resnet, y el aprendizaje de características se mejora al incorporar el módulo de convolución ponderada por profundidad (DWCM) mientras se retiene la información de características original extraída por CNN. Al mismo tiempo, también se introduce el módulo de atención 3D para fusionar la información contextual de áreas adyacentes, con el fin de refinar las características en cada tamaño espacial. Además, dado que la Red de Pirámide de Características (FPN) no puede resolver completamente el problema de interdependencia mediante una simple adición elemento a elemento para procesar el flujo de información entre capas, este artículo introduce un Módulo de Fusión de Características a Nivel Cruzado (CLFFM) basado en FPN, que se denomina Red de Pirámide de Características a Nivel Cruzado (Cross-Level FPN). El CLFFM propuesto puede manejar mejor el flujo de información entre capas y generar información de características detalladas, mejorando así la precisión de la detección de regiones de texto. En comparación con el marco de red original, el marco proporciona un rendimiento más avanzado en la detección de imágenes de texto en escenas complejas, y extensos experimentos en tres conjuntos de datos desafiantes validan la viabilidad de nuestro enfoque.
Descripción
En los últimos años, los métodos para detectar texto en escenas reales han avanzado significativamente con el aumento de las redes neuronales. Sin embargo, debido a la limitación del campo receptivo del sistema nervioso central y la representación simple del texto mediante el uso de cajas delimitadoras rectangulares, los métodos anteriores pueden ser insuficientes para trabajar con instancias de texto más desafiantes. Para resolver este problema, este artículo propone una red de detección de texto en escenas basada en la fusión de características a escala cruzada (CSFF-Net). El marco se basa en la red de columna vertebral ligera Resnet, y el aprendizaje de características se mejora al incorporar el módulo de convolución ponderada por profundidad (DWCM) mientras se retiene la información de características original extraída por CNN. Al mismo tiempo, también se introduce el módulo de atención 3D para fusionar la información contextual de áreas adyacentes, con el fin de refinar las características en cada tamaño espacial. Además, dado que la Red de Pirámide de Características (FPN) no puede resolver completamente el problema de interdependencia mediante una simple adición elemento a elemento para procesar el flujo de información entre capas, este artículo introduce un Módulo de Fusión de Características a Nivel Cruzado (CLFFM) basado en FPN, que se denomina Red de Pirámide de Características a Nivel Cruzado (Cross-Level FPN). El CLFFM propuesto puede manejar mejor el flujo de información entre capas y generar información de características detalladas, mejorando así la precisión de la detección de regiones de texto. En comparación con el marco de red original, el marco proporciona un rendimiento más avanzado en la detección de imágenes de texto en escenas complejas, y extensos experimentos en tres conjuntos de datos desafiantes validan la viabilidad de nuestro enfoque.