Investigación sobre algoritmo de detección de texto en dominios de aceptación reducida basado en mecanismo de atención y pirámide de características híbrida
Autores: Liu, Mingzhu; Li, Ben; Zhang, Wei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Investigación sobre algoritmo de detección de texto en dominios de aceptación reducida basado en mecanismo de atención y pirámide de características híbrida
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Proceso de detección de texto
Estructura de red ligera
Módulo de Atención de Bloque de Convolución
Extracción de características de texto
Pirámide de características híbrida
Red BLSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
En el proceso tradicional de detección de texto, el área de texto del pequeño campo receptivo en la imagen de video es fácilmente ignorada, las características que se pueden extraer son pocas y el cálculo es grande. Estos problemas no son propicios para el reconocimiento de información de texto. En este documento, se propone una estructura de red ligera basada en el algoritmo EAST, el Módulo de Atención de Bloque de Convolución (CBAM). Es adecuado para el módulo de atención híbrida espacial y de canal de extracción de características de texto de imágenes de video de escenas naturales. La estructura mejorada propuesta en este documento puede obtener características de red profundas de texto y reducir el cálculo de extracción de características de texto. Además, se diseña una red híbrida de pirámide de características + BLSTM para mejorar la atención a las regiones de texto de pequeño dominio de aceptación y las características de secuencia de texto de la región. Los resultados de la prueba en el ICDAR2015 demuestran que la construcción mejorada puede aumentar efectivamente la atención de las regiones de texto de pequeño dominio de aceptación y mejorar la precisión de detección de características de secuencia de regiones de texto largo sin aumentar significativamente el cálculo. Al mismo tiempo, las construcciones de red propuestas son superiores al algoritmo EAST tradicional y otros algoritmos mejorados en la tasa de precisión P, la tasa de recuperación R y el valor F.
Descripción
En el proceso tradicional de detección de texto, el área de texto del pequeño campo receptivo en la imagen de video es fácilmente ignorada, las características que se pueden extraer son pocas y el cálculo es grande. Estos problemas no son propicios para el reconocimiento de información de texto. En este documento, se propone una estructura de red ligera basada en el algoritmo EAST, el Módulo de Atención de Bloque de Convolución (CBAM). Es adecuado para el módulo de atención híbrida espacial y de canal de extracción de características de texto de imágenes de video de escenas naturales. La estructura mejorada propuesta en este documento puede obtener características de red profundas de texto y reducir el cálculo de extracción de características de texto. Además, se diseña una red híbrida de pirámide de características + BLSTM para mejorar la atención a las regiones de texto de pequeño dominio de aceptación y las características de secuencia de texto de la región. Los resultados de la prueba en el ICDAR2015 demuestran que la construcción mejorada puede aumentar efectivamente la atención de las regiones de texto de pequeño dominio de aceptación y mejorar la precisión de detección de características de secuencia de regiones de texto largo sin aumentar significativamente el cálculo. Al mismo tiempo, las construcciones de red propuestas son superiores al algoritmo EAST tradicional y otros algoritmos mejorados en la tasa de precisión P, la tasa de recuperación R y el valor F.