TableExtractNet: Un modelo de detección y reconocimiento automático de estructuras de tablas a partir de documentos no estructurados
Autores: Ngubane, Thokozani; Tapamo, Jules-Raymond
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
TableExtractNet: Un modelo de detección y reconocimiento automático de estructuras de tablas a partir de documentos no estructurados
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelo
Tablas
Documentos
Diseño
Automatizado
Datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta TableExtractNet, un modelo que encuentra y comprende automáticamente tablas de documentos escaneados, tareas que son esenciales para el uso rápido de la información en muchos campos. Esto es impulsado por la creciente necesidad de una interpretación eficiente y precisa de tablas en documentos comerciales donde las tablas mejoran la comunicación de datos y ayudan en la toma de decisiones. El modelo utiliza una combinación de dos técnicas avanzadas, CornerNet y Faster R-CNN, para localizar con precisión las tablas y comprender su diseño. Las pruebas en conjuntos de datos estándar, IIIT-AR-13K, STDW, SciTSR y PubTabNet, muestran que este modelo tiene un mejor rendimiento que los anteriores, lo que lo hace muy eficaz para tratar tablas que tienen diseños complicados o están en documentos con mucho detalle. El éxito de este modelo marca un avance en la automatización del análisis de documentos. Facilita la conversión de documentos escaneados complejos que contienen tablas en datos que son más manipulables por computadoras.
Descripción
Este documento presenta TableExtractNet, un modelo que encuentra y comprende automáticamente tablas de documentos escaneados, tareas que son esenciales para el uso rápido de la información en muchos campos. Esto es impulsado por la creciente necesidad de una interpretación eficiente y precisa de tablas en documentos comerciales donde las tablas mejoran la comunicación de datos y ayudan en la toma de decisiones. El modelo utiliza una combinación de dos técnicas avanzadas, CornerNet y Faster R-CNN, para localizar con precisión las tablas y comprender su diseño. Las pruebas en conjuntos de datos estándar, IIIT-AR-13K, STDW, SciTSR y PubTabNet, muestran que este modelo tiene un mejor rendimiento que los anteriores, lo que lo hace muy eficaz para tratar tablas que tienen diseños complicados o están en documentos con mucho detalle. El éxito de este modelo marca un avance en la automatización del análisis de documentos. Facilita la conversión de documentos escaneados complejos que contienen tablas en datos que son más manipulables por computadoras.