Construcción de un conjunto de datos de caracteres para documentos tibetanos históricos en uchen bajo condiciones de recursos limitados
Autores: Zhang, Ce; Wang, Weilan; Zhang, Guowei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Construcción de un conjunto de datos de caracteres para documentos tibetanos históricos en uchen bajo condiciones de recursos limitados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Construcción
Conjunto de datos de caracteres
Segmentación
Anotación
Imágenes
Reconocimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La construcción de un conjunto de datos de caracteres es una parte importante de la investigación sobre análisis de documentos y reconocimiento de documentos tibetanos históricos. Los resultados de la investigación de segmentación de caracteres en la etapa anterior se presentan coloreando los caracteres con diferentes valores de color. Sobre esta base, los caracteres son anotados y las imágenes de los caracteres correspondientes a la anotación son extraídas para construir un conjunto de datos de caracteres. La construcción de un conjunto de datos de caracteres se lleva a cabo de la siguiente manera: (1) se realiza la anotación de texto de los caracteres segmentados; (2) la imagen del carácter se extrae del bloque de caracteres basándose en la información de posición real; (3) de acuerdo con la clase de texto anotado, las imágenes de caracteres extraídas se clasifican para construir un conjunto de datos de caracteres preliminar; (4) se utiliza la aumentación de datos para resolver el desequilibrio de clases y muestras en el conjunto de datos preliminar; (5) se realiza la investigación sobre el reconocimiento de caracteres basado en el conjunto de datos construido. Los resultados experimentales muestran que bajo condiciones de recursos limitados, este documento resuelve los desafíos en la construcción de un conjunto de datos de caracteres de documentos tibetanos históricos Uchen y construye un conjunto de datos de caracteres de 610 clases. Este conjunto de datos sienta las bases para el reconocimiento de caracteres de documentos tibetanos históricos y proporciona una referencia para la construcción de conjuntos de datos de documentos relevantes.
Descripción
La construcción de un conjunto de datos de caracteres es una parte importante de la investigación sobre análisis de documentos y reconocimiento de documentos tibetanos históricos. Los resultados de la investigación de segmentación de caracteres en la etapa anterior se presentan coloreando los caracteres con diferentes valores de color. Sobre esta base, los caracteres son anotados y las imágenes de los caracteres correspondientes a la anotación son extraídas para construir un conjunto de datos de caracteres. La construcción de un conjunto de datos de caracteres se lleva a cabo de la siguiente manera: (1) se realiza la anotación de texto de los caracteres segmentados; (2) la imagen del carácter se extrae del bloque de caracteres basándose en la información de posición real; (3) de acuerdo con la clase de texto anotado, las imágenes de caracteres extraídas se clasifican para construir un conjunto de datos de caracteres preliminar; (4) se utiliza la aumentación de datos para resolver el desequilibrio de clases y muestras en el conjunto de datos preliminar; (5) se realiza la investigación sobre el reconocimiento de caracteres basado en el conjunto de datos construido. Los resultados experimentales muestran que bajo condiciones de recursos limitados, este documento resuelve los desafíos en la construcción de un conjunto de datos de caracteres de documentos tibetanos históricos Uchen y construye un conjunto de datos de caracteres de 610 clases. Este conjunto de datos sienta las bases para el reconocimiento de caracteres de documentos tibetanos históricos y proporciona una referencia para la construcción de conjuntos de datos de documentos relevantes.