logo móvil
Contáctanos

Desarrollo de un modelo de software para la clasificación y catalogación automática de documentos de archivo

Autores: Dauletov, Adilbek; Muminov, Bahodir; Matyakubova, Noila; Abdurahmonova, Uldona; Bakhriyeva, Khurshida; Fayzieva, Makhbubakhon

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Desarrollo de un modelo de software para la clasificación y catalogación automática de documentos de archivo


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelo de software
Clasificación de documentos
Generación de metadatos
OCR
Modelo BERT
Dublin Core

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este estudio propone un modelo de software integrado para la clasificación automática de documentos y la generación de metadatos basado en el estándar Dublin Core para abordar el problema de la gestión rápida y consistente de documentos archivísticos en un entorno digital. Este enfoque combina las etapas de recepción de documentos entrantes, conversión a texto utilizando reconocimiento óptico de caracteres (OCR), preprocesamiento de imágenes (binarización, corrección de inclinación, reducción de ruido) y limpieza y vectorización de texto (TF-IDF) en un solo flujo de trabajo. En la etapa de clasificación de documentos, se utiliza el modelo de Representaciones de Codificadores Bidireccionales de Transformadores (BERT) con una arquitectura de transformador sensible al contexto, junto con modelos clásicos de aprendizaje automático (Regresión Logística, Naive Bayes, Máquina de Vectores de Soporte) y un enfoque de conjunto (LightGBM), para aumentar la precisión modelando el contenido del documento a un nivel semántico profundo. Se realizaron experimentos en el conjunto de datos RVL-CDIP, y se evaluó la eficiencia del OCR utilizando el indicador de Tasa de Error de Caracteres (CER), y los resultados de clasificación se evaluaron utilizando las métricas de precisión, exactitud, recuperación y F1-score. Los resultados confirmaron la alta estabilidad y capacidad de generalización de los modelos BERT (exactitud, 95.1%; F1, 95.0%) y LightGBM (exactitud, 93.2%; F1, 93.2%). En la etapa final, las salidas de OCR, NER y clasificación se organizan automáticamente en elementos de metadatos Dublin Core (Título, Creador, Fecha, Descripción, Sujeto, Tipo, Formato, Idioma) y se exportan en formatos JSON/XML. Esta automatización reduce significativamente el esfuerzo de catalogación manual y mejora la eficiencia de indexación y recuperación en sistemas archivísticos digitales.

Otros recursos que podrían interesarte

Temas Virtualpro