Desarrollo de un modelo de software para la clasificación y catalogación automática de documentos de archivo
Autores: Dauletov, Adilbek; Muminov, Bahodir; Matyakubova, Noila; Abdurahmonova, Uldona; Bakhriyeva, Khurshida; Fayzieva, Makhbubakhon
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Desarrollo de un modelo de software para la clasificación y catalogación automática de documentos de archivo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelo de software
Clasificación de documentos
Generación de metadatos
OCR
Modelo BERT
Dublin Core
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este estudio propone un modelo de software integrado para la clasificación automática de documentos y la generación de metadatos basado en el estándar Dublin Core para abordar el problema de la gestión rápida y consistente de documentos archivísticos en un entorno digital. Este enfoque combina las etapas de recepción de documentos entrantes, conversión a texto utilizando reconocimiento óptico de caracteres (OCR), preprocesamiento de imágenes (binarización, corrección de inclinación, reducción de ruido) y limpieza y vectorización de texto (TF-IDF) en un solo flujo de trabajo. En la etapa de clasificación de documentos, se utiliza el modelo de Representaciones de Codificadores Bidireccionales de Transformadores (BERT) con una arquitectura de transformador sensible al contexto, junto con modelos clásicos de aprendizaje automático (Regresión Logística, Naive Bayes, Máquina de Vectores de Soporte) y un enfoque de conjunto (LightGBM), para aumentar la precisión modelando el contenido del documento a un nivel semántico profundo. Se realizaron experimentos en el conjunto de datos RVL-CDIP, y se evaluó la eficiencia del OCR utilizando el indicador de Tasa de Error de Caracteres (CER), y los resultados de clasificación se evaluaron utilizando las métricas de precisión, exactitud, recuperación y F1-score. Los resultados confirmaron la alta estabilidad y capacidad de generalización de los modelos BERT (exactitud, 95.1%; F1, 95.0%) y LightGBM (exactitud, 93.2%; F1, 93.2%). En la etapa final, las salidas de OCR, NER y clasificación se organizan automáticamente en elementos de metadatos Dublin Core (Título, Creador, Fecha, Descripción, Sujeto, Tipo, Formato, Idioma) y se exportan en formatos JSON/XML. Esta automatización reduce significativamente el esfuerzo de catalogación manual y mejora la eficiencia de indexación y recuperación en sistemas archivísticos digitales.
Descripción
Este estudio propone un modelo de software integrado para la clasificación automática de documentos y la generación de metadatos basado en el estándar Dublin Core para abordar el problema de la gestión rápida y consistente de documentos archivísticos en un entorno digital. Este enfoque combina las etapas de recepción de documentos entrantes, conversión a texto utilizando reconocimiento óptico de caracteres (OCR), preprocesamiento de imágenes (binarización, corrección de inclinación, reducción de ruido) y limpieza y vectorización de texto (TF-IDF) en un solo flujo de trabajo. En la etapa de clasificación de documentos, se utiliza el modelo de Representaciones de Codificadores Bidireccionales de Transformadores (BERT) con una arquitectura de transformador sensible al contexto, junto con modelos clásicos de aprendizaje automático (Regresión Logística, Naive Bayes, Máquina de Vectores de Soporte) y un enfoque de conjunto (LightGBM), para aumentar la precisión modelando el contenido del documento a un nivel semántico profundo. Se realizaron experimentos en el conjunto de datos RVL-CDIP, y se evaluó la eficiencia del OCR utilizando el indicador de Tasa de Error de Caracteres (CER), y los resultados de clasificación se evaluaron utilizando las métricas de precisión, exactitud, recuperación y F1-score. Los resultados confirmaron la alta estabilidad y capacidad de generalización de los modelos BERT (exactitud, 95.1%; F1, 95.0%) y LightGBM (exactitud, 93.2%; F1, 93.2%). En la etapa final, las salidas de OCR, NER y clasificación se organizan automáticamente en elementos de metadatos Dublin Core (Título, Creador, Fecha, Descripción, Sujeto, Tipo, Formato, Idioma) y se exportan en formatos JSON/XML. Esta automatización reduce significativamente el esfuerzo de catalogación manual y mejora la eficiencia de indexación y recuperación en sistemas archivísticos digitales.