logo móvil
Contáctanos

Un método de detección de texto en manuscritos franceses históricos escritos a mano en páginas completas

Autores: Sang, Rui; Zhao, Shili; Meng, Yan; Zhang, Mingxian; Li, Xuefei; Xia, Huijie; Zhao, Ran

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un método de detección de texto en manuscritos franceses históricos escritos a mano en páginas completas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Manuscritos
Detección de texto
YOLOv8s
Swin Transformer
Dysample
LSK

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los manuscritos históricos escritos a mano presentan desafíos para las técnicas de reconocimiento automatizado debido a sus estilos de escritura únicos y antecedentes culturales. Con el fin de resolver los problemas de detección errónea de palabras de texto complejas, omisiones y detección insuficiente de texto curvado de gran amplitud, este estudio propone un método de detección de texto de alta precisión basado en YOLOv8s mejorado. En primer lugar, se utiliza el Swin Transformer para reemplazar C2f al final de la red de backbone para solucionar las deficiencias de pérdida de información de grano fino y características de aprendizaje insuficientes en la detección de palabras de texto. En segundo lugar, se utiliza el método Dysample (Dynamic Upsampling Operator) para retener más características detalladas del objetivo y superar las deficiencias de pérdida de información en el upsampling tradicional para realizar la tarea de detección de texto para objetivos densos. Luego, se añade el módulo LSK (Large Selective Kernel) a la cabeza de detección para ajustar dinámicamente el campo receptivo de extracción de características, lo que resuelve los casos de palabras con relaciones de aspecto extremas, texto pequeño desenfocado y texto de forma compleja en la detección de texto. Finalmente, para superar la pérdida CIOU (Complete Intersection Over Union) en la regresión de cajas objetivo con relación de aspecto poco clara, insensible al cambio de tamaño y correlación insuficiente entre las coordenadas del objetivo, se introduce la Distancia de Wasserstein Gaussiana (GWD) para modificar la pérdida de regresión y medir la similitud entre las dos cajas delimitadoras con el fin de obtener cajas delimitadoras de alta calidad. En comparación con los métodos de última generación, el método propuesto logra un rendimiento óptimo en la detección de texto, con una precisión y mAP@0.5 que alcanzan el 86.3% y el 82.4%, que son un 8.1% y un 6.7% más altos que el método original, respectivamente. El avance de cada módulo se verifica mediante experimentos de ablación. Los resultados experimentales muestran que el método propuesto en este estudio puede realizar efectivamente la detección de texto compleja y proporcionar un medio técnico poderoso para la reproducción de manuscritos históricos.

Otros recursos que podrían interesarte

Temas Virtualpro