logo móvil
Contáctanos

Construcción de un conjunto de datos de caracteres para documentos tibetanos históricos en uchen bajo condiciones de recursos limitados

Autores: Zhang, Ce; Wang, Weilan; Zhang, Guowei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Construcción de un conjunto de datos de caracteres para documentos tibetanos históricos en uchen bajo condiciones de recursos limitados


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Construcción
Conjunto de datos de caracteres
Segmentación
Anotación
Imágenes
Reconocimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
La construcción de un conjunto de datos de caracteres es una parte importante de la investigación sobre análisis de documentos y reconocimiento de documentos tibetanos históricos. Los resultados de la investigación de segmentación de caracteres en la etapa anterior se presentan coloreando los caracteres con diferentes valores de color. Sobre esta base, los caracteres son anotados y las imágenes de los caracteres correspondientes a la anotación son extraídas para construir un conjunto de datos de caracteres. La construcción de un conjunto de datos de caracteres se lleva a cabo de la siguiente manera: (1) se realiza la anotación de texto de los caracteres segmentados; (2) la imagen del carácter se extrae del bloque de caracteres basándose en la información de posición real; (3) de acuerdo con la clase de texto anotado, las imágenes de caracteres extraídas se clasifican para construir un conjunto de datos de caracteres preliminar; (4) se utiliza la aumentación de datos para resolver el desequilibrio de clases y muestras en el conjunto de datos preliminar; (5) se realiza la investigación sobre el reconocimiento de caracteres basado en el conjunto de datos construido. Los resultados experimentales muestran que bajo condiciones de recursos limitados, este documento resuelve los desafíos en la construcción de un conjunto de datos de caracteres de documentos tibetanos históricos Uchen y construye un conjunto de datos de caracteres de 610 clases. Este conjunto de datos sienta las bases para el reconocimiento de caracteres de documentos tibetanos históricos y proporciona una referencia para la construcción de conjuntos de datos de documentos relevantes.

Otros recursos que podrían interesarte

Temas Virtualpro