Desarrollo de un modelo de software para la clasificación y catalogación automática de documentos de archivo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Desarrollo de un modelo de software para la clasificación y catalogación automática de documentos de archivo

Autores: Dauletov, Adilbek; Muminov, Bahodir; Matyakubova, Noila; Abdurahmonova, Uldona; Bakhriyeva, Khurshida; Fayzieva, Makhbubakhon

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Desarrollo de un modelo de software para la clasificación y catalogación automática de documentos de archivo

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelo de software

Clasificación de documentos

Generación de metadatos

OCR

Modelo BERT

Dublin Core

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este estudio propone un modelo de software integrado para la clasificación automática de documentos y la generación de metadatos basado en el estándar Dublin Core para abordar el problema de la gestión rápida y consistente de documentos archivísticos en un entorno digital. Este enfoque combina las etapas de recepción de documentos entrantes, conversión a texto utilizando reconocimiento óptico de caracteres (OCR), preprocesamiento de imágenes (binarización, corrección de inclinación, reducción de ruido) y limpieza y vectorización de texto (TF-IDF) en un solo flujo de trabajo. En la etapa de clasificación de documentos, se utiliza el modelo de Representaciones de Codificadores Bidireccionales de Transformadores (BERT) con una arquitectura de transformador sensible al contexto, junto con modelos clásicos de aprendizaje automático (Regresión Logística, Naive Bayes, Máquina de Vectores de Soporte) y un enfoque de conjunto (LightGBM), para aumentar la precisión modelando el contenido del documento a un nivel semántico profundo. Se realizaron experimentos en el conjunto de datos RVL-CDIP, y se evaluó la eficiencia del OCR utilizando el indicador de Tasa de Error de Caracteres (CER), y los resultados de clasificación se evaluaron utilizando las métricas de precisión, exactitud, recuperación y F1-score. Los resultados confirmaron la alta estabilidad y capacidad de generalización de los modelos BERT (exactitud, 95.1%; F1, 95.0%) y LightGBM (exactitud, 93.2%; F1, 93.2%). En la etapa final, las salidas de OCR, NER y clasificación se organizan automáticamente en elementos de metadatos Dublin Core (Título, Creador, Fecha, Descripción, Sujeto, Tipo, Formato, Idioma) y se exportan en formatos JSON/XML. Esta automatización reduce significativamente el esfuerzo de catalogación manual y mejora la eficiencia de indexación y recuperación en sistemas archivísticos digitales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro