Ea-convnext: un enfoque para la identificación de guiones en escenas naturales basado en el flujo de bordes y la atención a coordenadas
Autores: Zhang, Zhiyun; Eli, Elham; Mamat, Hornisa; Aysa, Alimjan; Ubul, Kurban
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Ea-convnext: un enfoque para la identificación de guiones en escenas naturales basado en el flujo de bordes y la atención a coordenadas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Multilingüe
Identificación de guiones
ConvNext
EA-ConvNext
Mapa de flujo de bordes
Módulo de atención de coordenadas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
En la comprensión de texto de escenas multilingües, la identificación de guiones es un paso previo importante para el reconocimiento de imágenes de texto. Debido al complejo fondo de imágenes de texto en escenas naturales, ruido severo y símbolos comunes o diseños similares en diferentes familias de idiomas, el problema de identificación de guiones no ha sido resuelto. Este documento propone un nuevo método de identificación de guiones basado en la mejora de ConvNext, llamado EA-ConvNext. En primer lugar, se propone el método de generar un mapa de flujo de bordes a partir de la imagen original, lo que aumenta el número de guiones y reduce el ruido de fondo. Luego, basado en la información de características extraída por la red neuronal convolucional ConvNeXt, se propone un módulo de atención de coordenadas para mejorar la descripción de la información de características de posición espacial en la dirección vertical. El conjunto de datos público SIW-13 se ha ampliado y se ha añadido el conjunto de imágenes de guiones uigures, llamado SIW-14. El método mejorado logró tasas de identificación del 97,3%, 93,5% y 92,4% en los conjuntos de datos públicos de identificación de guiones CVSI-2015, MLe2e y SIW-13, respectivamente, y del 92,0% en el conjunto de datos ampliado SIW-14, verificando la superioridad de este método.
Descripción
En la comprensión de texto de escenas multilingües, la identificación de guiones es un paso previo importante para el reconocimiento de imágenes de texto. Debido al complejo fondo de imágenes de texto en escenas naturales, ruido severo y símbolos comunes o diseños similares en diferentes familias de idiomas, el problema de identificación de guiones no ha sido resuelto. Este documento propone un nuevo método de identificación de guiones basado en la mejora de ConvNext, llamado EA-ConvNext. En primer lugar, se propone el método de generar un mapa de flujo de bordes a partir de la imagen original, lo que aumenta el número de guiones y reduce el ruido de fondo. Luego, basado en la información de características extraída por la red neuronal convolucional ConvNeXt, se propone un módulo de atención de coordenadas para mejorar la descripción de la información de características de posición espacial en la dirección vertical. El conjunto de datos público SIW-13 se ha ampliado y se ha añadido el conjunto de imágenes de guiones uigures, llamado SIW-14. El método mejorado logró tasas de identificación del 97,3%, 93,5% y 92,4% en los conjuntos de datos públicos de identificación de guiones CVSI-2015, MLe2e y SIW-13, respectivamente, y del 92,0% en el conjunto de datos ampliado SIW-14, verificando la superioridad de este método.