Eficiente red neuronal para reconocimiento de texto en escenas naturales basada en mecanismo de atención de múltiples escalas de extremo a extremo
Autores: Peng, Huiling; Yu, Jia; Nie, Yalin
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Eficiente red neuronal para reconocimiento de texto en escenas naturales basada en mecanismo de atención de múltiples escalas de extremo a extremo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de texto
Escenas naturales
Información semántica
Detección de errores
Precisión de reconocimiento
Red de aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
El reconocimiento de texto en escenas naturales ha sido una tarea muy desafiante en los últimos años, y la información semántica del texto es de gran importancia para la comprensión de una escena. Sin embargo, las imágenes de texto en escenas naturales a menudo contienen muchos datos de ruido, lo que lleva a la detección de errores. Los problemas de alta tasa de detección de errores y baja precisión de reconocimiento han planteado grandes desafíos para la tarea de reconocimiento de texto. Para resolver este problema, proponemos un algoritmo de reconocimiento de texto basado en escenas naturales. Primero, la tarea de detección y reconocimiento de texto se completa de manera integral en un marco, lo que puede reducir el error de predicción y cálculo acumulativo causado por el encadenamiento, y tiene una mayor velocidad en tiempo real y más rápida. Además, integramos un mecanismo de atención multi-escala para obtener características de atención de diferentes mapas de características de escala. Finalmente, utilizamos la red de aprendizaje profundo eficiente (EE-ACNN), que combina una red neuronal convolucional (CNN) con un algoritmo de extremo a extremo y atención multi-escala para enriquecer las características de texto a ser detectadas, expandir su campo receptivo, producir buena robustez a la información de texto natural efectiva y mejorar el rendimiento de reconocimiento. A través de experimentos en conjuntos de datos de texto de escenas naturales, la precisión de este método alcanzó el 93.87%, que es casi un 0.96-1.02% más alto que el de los métodos tradicionales, lo que demuestra la viabilidad de este método.
Descripción
El reconocimiento de texto en escenas naturales ha sido una tarea muy desafiante en los últimos años, y la información semántica del texto es de gran importancia para la comprensión de una escena. Sin embargo, las imágenes de texto en escenas naturales a menudo contienen muchos datos de ruido, lo que lleva a la detección de errores. Los problemas de alta tasa de detección de errores y baja precisión de reconocimiento han planteado grandes desafíos para la tarea de reconocimiento de texto. Para resolver este problema, proponemos un algoritmo de reconocimiento de texto basado en escenas naturales. Primero, la tarea de detección y reconocimiento de texto se completa de manera integral en un marco, lo que puede reducir el error de predicción y cálculo acumulativo causado por el encadenamiento, y tiene una mayor velocidad en tiempo real y más rápida. Además, integramos un mecanismo de atención multi-escala para obtener características de atención de diferentes mapas de características de escala. Finalmente, utilizamos la red de aprendizaje profundo eficiente (EE-ACNN), que combina una red neuronal convolucional (CNN) con un algoritmo de extremo a extremo y atención multi-escala para enriquecer las características de texto a ser detectadas, expandir su campo receptivo, producir buena robustez a la información de texto natural efectiva y mejorar el rendimiento de reconocimiento. A través de experimentos en conjuntos de datos de texto de escenas naturales, la precisión de este método alcanzó el 93.87%, que es casi un 0.96-1.02% más alto que el de los métodos tradicionales, lo que demuestra la viabilidad de este método.