Un algoritmo para el reconocimiento de texto en imágenes naturales utilizando características de cuatro direcciones
Autores: Zhang, Min; Yan, Yujin; Wang, Hai; Zhao, Wei
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Un algoritmo para el reconocimiento de texto en imágenes naturales utilizando características de cuatro direcciones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aplicaciones
Texto irregular
Red neuronal convolucional
Características
Codificador
Conjuntos de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
El texto irregular tiene aplicaciones generalizadas en múltiples áreas. Diferente del texto regular, el texto irregular es difícil de reconocer debido a sus diversas formas y patrones distorsionados. En este documento, desarrollamos una red neuronal convolucional multidireccional (MCN) para extraer cuatro características direccionales que describan completamente la información textual. Al mismo tiempo, la posibilidad de colocación de caracteres se extrae como el peso de las cuatro características direccionales. Basándonos en estos trabajos, proponemos el codificador para fusionar las cuatro características direccionales para la generación de un código de características que predice la secuencia de caracteres. Toda la red es entrenable de extremo a extremo debido al uso de imágenes y etiquetas a nivel de palabra. Los experimentos en benchmarks estándar, incluidos los conjuntos de datos IIIT-5K, SVT, CUTE80 y ICDAR, demuestran la superioridad del método propuesto tanto en conjuntos de datos regulares como irregulares. El método desarrollado muestra un aumento del 1.2% en el conjunto de datos CUTE80 y del 1.5% en el conjunto de datos SVT, y tiene menos parámetros que la mayoría de los métodos existentes.
Descripción
El texto irregular tiene aplicaciones generalizadas en múltiples áreas. Diferente del texto regular, el texto irregular es difícil de reconocer debido a sus diversas formas y patrones distorsionados. En este documento, desarrollamos una red neuronal convolucional multidireccional (MCN) para extraer cuatro características direccionales que describan completamente la información textual. Al mismo tiempo, la posibilidad de colocación de caracteres se extrae como el peso de las cuatro características direccionales. Basándonos en estos trabajos, proponemos el codificador para fusionar las cuatro características direccionales para la generación de un código de características que predice la secuencia de caracteres. Toda la red es entrenable de extremo a extremo debido al uso de imágenes y etiquetas a nivel de palabra. Los experimentos en benchmarks estándar, incluidos los conjuntos de datos IIIT-5K, SVT, CUTE80 y ICDAR, demuestran la superioridad del método propuesto tanto en conjuntos de datos regulares como irregulares. El método desarrollado muestra un aumento del 1.2% en el conjunto de datos CUTE80 y del 1.5% en el conjunto de datos SVT, y tiene menos parámetros que la mayoría de los métodos existentes.