Httd: un transformador jerárquico para la detección precisa de tablas en imágenes de documentos
Autores: Kasem, Mahmoud SalahEldin; Mahmoud, Mohamed; Yagoub, Bilel; Senussi, Mostafa Farouk; Abdalla, Mahmoud; Kang, Hyun-Soo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Httd: un transformador jerárquico para la detección precisa de tablas en imágenes de documentos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Detección de tablas
Imágenes de documentos
HTTD
Transformador
Rendimiento
Conjuntos de datos de referencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
La detección de tablas en imágenes de documentos es un problema desafiante debido a la variedad de diseños, estructuras irregulares y elementos gráficos incrustados. En este estudio, presentamos HTTD (Transformador Jerárquico para Detección de Tablas), un modelo de vanguardia que combina un esqueleto de Transformador Swin-L con mecanismos avanzados basados en Transformadores para lograr un rendimiento superior. HTTD aborda tres desafíos clave: manejar diseños de documentos diversos, incluidas estructuras históricas y modernas; mejorar la eficiencia computacional y la convergencia del entrenamiento; y demostrar adaptabilidad a tareas no estándar como la imagen médica y la detección de claves de recibos. Evaluado en conjuntos de datos de referencia, HTTD logra resultados de vanguardia, con tasas de precisión del 96.98% en ICDAR-2019 cTDaR, del 96.43% en TNCR y del 93.14% en TabRecSet. Estos resultados validan su eficacia y eficiencia, allanando el camino para tareas avanzadas de análisis de documentos y digitalización de datos.
Descripción
La detección de tablas en imágenes de documentos es un problema desafiante debido a la variedad de diseños, estructuras irregulares y elementos gráficos incrustados. En este estudio, presentamos HTTD (Transformador Jerárquico para Detección de Tablas), un modelo de vanguardia que combina un esqueleto de Transformador Swin-L con mecanismos avanzados basados en Transformadores para lograr un rendimiento superior. HTTD aborda tres desafíos clave: manejar diseños de documentos diversos, incluidas estructuras históricas y modernas; mejorar la eficiencia computacional y la convergencia del entrenamiento; y demostrar adaptabilidad a tareas no estándar como la imagen médica y la detección de claves de recibos. Evaluado en conjuntos de datos de referencia, HTTD logra resultados de vanguardia, con tasas de precisión del 96.98% en ICDAR-2019 cTDaR, del 96.43% en TNCR y del 93.14% en TabRecSet. Estos resultados validan su eficacia y eficiencia, allanando el camino para tareas avanzadas de análisis de documentos y digitalización de datos.