Convolución con compuerta y modelo basado en codificador-decodificador de atención propia apilada para el reconocimiento de texto etíope manuscrito fuera de línea
Autores: Tadesse, Direselign Addis; Liu, Chuan-Ming; Ta, Van-Dai
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Convolución con compuerta y modelo basado en codificador-decodificador de atención propia apilada para el reconocimiento de texto etíope manuscrito fuera de línea
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Reconocimiento de texto manuscrito
Sin conexión
Escritura etíope
Red de codificador-decodificador
Tasa de Error de Caracteres
Tasa de Error de Palabras
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento de texto manuscrito fuera de línea (HTR) es un proyecto de investigación de larga data para una amplia gama de aplicaciones, incluyendo la asistencia a usuarios con discapacidad visual, interacciones entre humanos y robots, y la entrada automática de documentos comerciales. Sin embargo, debido a las variaciones en los estilos de escritura, las similitudes visuales entre diferentes caracteres, la superposición entre caracteres y el ruido en los documentos fuente, diseñar un sistema HTR preciso y flexible es un desafío. El problema se vuelve serio cuando el algoritmo tiene una baja capacidad de aprendizaje y cuando el texto utilizado es complejo y tiene muchos caracteres en el sistema de escritura, como el guion etíope. En este artículo, proponemos un nuevo modelo que reconoce texto manuscrito etíope fuera de línea utilizando una red de codificador-decodificador con convolución en compuerta y atención autoapilada. El modelo propuesto tiene una capa de extracción de características, una capa de codificación y una capa de decodificación. La capa de extracción de características extrae mapas de características invariantes de alta dimensión de la imagen manuscrita de entrada. Utilizando los mapas de características extraídos, las capas de codificación y decodificación transcriben el texto correspondiente. Para el entrenamiento y la prueba del modelo propuesto, preparamos un conjunto de datos de líneas de texto manuscrito etíope fuera de línea (HETD) con 2800 muestras y un conjunto de datos de palabras manuscritas etíopes (HEWD) con 10,540 muestras obtenidas de 250 voluntarios. Los resultados del experimento del modelo propuesto en HETD muestran una tasa de error de caracteres (CER) de 9.17 y una tasa de error de palabras (WER) de 13.11, respectivamente. Sin embargo, el modelo en HEWD muestra un CER de 8.22 y un WER de 9.17, respectivamente. Estos resultados y los conjuntos de datos preparados se utilizarán como base para futuras investigaciones.
Descripción
El reconocimiento de texto manuscrito fuera de línea (HTR) es un proyecto de investigación de larga data para una amplia gama de aplicaciones, incluyendo la asistencia a usuarios con discapacidad visual, interacciones entre humanos y robots, y la entrada automática de documentos comerciales. Sin embargo, debido a las variaciones en los estilos de escritura, las similitudes visuales entre diferentes caracteres, la superposición entre caracteres y el ruido en los documentos fuente, diseñar un sistema HTR preciso y flexible es un desafío. El problema se vuelve serio cuando el algoritmo tiene una baja capacidad de aprendizaje y cuando el texto utilizado es complejo y tiene muchos caracteres en el sistema de escritura, como el guion etíope. En este artículo, proponemos un nuevo modelo que reconoce texto manuscrito etíope fuera de línea utilizando una red de codificador-decodificador con convolución en compuerta y atención autoapilada. El modelo propuesto tiene una capa de extracción de características, una capa de codificación y una capa de decodificación. La capa de extracción de características extrae mapas de características invariantes de alta dimensión de la imagen manuscrita de entrada. Utilizando los mapas de características extraídos, las capas de codificación y decodificación transcriben el texto correspondiente. Para el entrenamiento y la prueba del modelo propuesto, preparamos un conjunto de datos de líneas de texto manuscrito etíope fuera de línea (HETD) con 2800 muestras y un conjunto de datos de palabras manuscritas etíopes (HEWD) con 10,540 muestras obtenidas de 250 voluntarios. Los resultados del experimento del modelo propuesto en HETD muestran una tasa de error de caracteres (CER) de 9.17 y una tasa de error de palabras (WER) de 13.11, respectivamente. Sin embargo, el modelo en HEWD muestra un CER de 8.22 y un WER de 9.17, respectivamente. Estos resultados y los conjuntos de datos preparados se utilizarán como base para futuras investigaciones.