Un método de detección de texto en manuscritos franceses históricos escritos a mano en páginas completas
Autores: Sang, Rui; Zhao, Shili; Meng, Yan; Zhang, Mingxian; Li, Xuefei; Xia, Huijie; Zhao, Ran
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método de detección de texto en manuscritos franceses históricos escritos a mano en páginas completas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Manuscritos
Detección de texto
YOLOv8s
Swin Transformer
Dysample
LSK
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los manuscritos históricos escritos a mano presentan desafíos para las técnicas de reconocimiento automatizado debido a sus estilos de escritura únicos y antecedentes culturales. Con el fin de resolver los problemas de detección errónea de palabras de texto complejas, omisiones y detección insuficiente de texto curvado de gran amplitud, este estudio propone un método de detección de texto de alta precisión basado en YOLOv8s mejorado. En primer lugar, se utiliza el Swin Transformer para reemplazar C2f al final de la red de backbone para solucionar las deficiencias de pérdida de información de grano fino y características de aprendizaje insuficientes en la detección de palabras de texto. En segundo lugar, se utiliza el método Dysample (Dynamic Upsampling Operator) para retener más características detalladas del objetivo y superar las deficiencias de pérdida de información en el upsampling tradicional para realizar la tarea de detección de texto para objetivos densos. Luego, se añade el módulo LSK (Large Selective Kernel) a la cabeza de detección para ajustar dinámicamente el campo receptivo de extracción de características, lo que resuelve los casos de palabras con relaciones de aspecto extremas, texto pequeño desenfocado y texto de forma compleja en la detección de texto. Finalmente, para superar la pérdida CIOU (Complete Intersection Over Union) en la regresión de cajas objetivo con relación de aspecto poco clara, insensible al cambio de tamaño y correlación insuficiente entre las coordenadas del objetivo, se introduce la Distancia de Wasserstein Gaussiana (GWD) para modificar la pérdida de regresión y medir la similitud entre las dos cajas delimitadoras con el fin de obtener cajas delimitadoras de alta calidad. En comparación con los métodos de última generación, el método propuesto logra un rendimiento óptimo en la detección de texto, con una precisión y mAP@0.5 que alcanzan el 86.3% y el 82.4%, que son un 8.1% y un 6.7% más altos que el método original, respectivamente. El avance de cada módulo se verifica mediante experimentos de ablación. Los resultados experimentales muestran que el método propuesto en este estudio puede realizar efectivamente la detección de texto compleja y proporcionar un medio técnico poderoso para la reproducción de manuscritos históricos.
Descripción
Los manuscritos históricos escritos a mano presentan desafíos para las técnicas de reconocimiento automatizado debido a sus estilos de escritura únicos y antecedentes culturales. Con el fin de resolver los problemas de detección errónea de palabras de texto complejas, omisiones y detección insuficiente de texto curvado de gran amplitud, este estudio propone un método de detección de texto de alta precisión basado en YOLOv8s mejorado. En primer lugar, se utiliza el Swin Transformer para reemplazar C2f al final de la red de backbone para solucionar las deficiencias de pérdida de información de grano fino y características de aprendizaje insuficientes en la detección de palabras de texto. En segundo lugar, se utiliza el método Dysample (Dynamic Upsampling Operator) para retener más características detalladas del objetivo y superar las deficiencias de pérdida de información en el upsampling tradicional para realizar la tarea de detección de texto para objetivos densos. Luego, se añade el módulo LSK (Large Selective Kernel) a la cabeza de detección para ajustar dinámicamente el campo receptivo de extracción de características, lo que resuelve los casos de palabras con relaciones de aspecto extremas, texto pequeño desenfocado y texto de forma compleja en la detección de texto. Finalmente, para superar la pérdida CIOU (Complete Intersection Over Union) en la regresión de cajas objetivo con relación de aspecto poco clara, insensible al cambio de tamaño y correlación insuficiente entre las coordenadas del objetivo, se introduce la Distancia de Wasserstein Gaussiana (GWD) para modificar la pérdida de regresión y medir la similitud entre las dos cajas delimitadoras con el fin de obtener cajas delimitadoras de alta calidad. En comparación con los métodos de última generación, el método propuesto logra un rendimiento óptimo en la detección de texto, con una precisión y mAP@0.5 que alcanzan el 86.3% y el 82.4%, que son un 8.1% y un 6.7% más altos que el método original, respectivamente. El avance de cada módulo se verifica mediante experimentos de ablación. Los resultados experimentales muestran que el método propuesto en este estudio puede realizar efectivamente la detección de texto compleja y proporcionar un medio técnico poderoso para la reproducción de manuscritos históricos.