Método de reconocimiento de estructura de tabla basado en red ligera y atención de canal
Autores: Zhang, Tao; Sui, Yi; Wu, Shunyao; Shao, Fengjing; Sun, Rencheng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Método de reconocimiento de estructura de tabla basado en red ligera y atención de canal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de tablas
Segmentación semántica
Red ligera
ShuffleNetv2
Módulos agregados de atención
Compresión de modelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
El modelo de reconocimiento de tablas de red agregada de filas y columnas (RCANet) utiliza un enfoque de segmentación semántica para reconocer la estructura de la tabla y logra un mejor rendimiento en la segmentación de filas y columnas de la tabla. Sin embargo, este modelo utiliza ResNet18 como red principal, y el modelo tiene 11.35 millones de parámetros y un volumen de 45.5 M, lo cual es inconveniente para implementar en servidores livianos o terminales móviles. Por lo tanto, desde la perspectiva de la compresión del modelo, este artículo propone la red agregada de atención de filas y columnas livianas (LRCAANet), que utiliza la red liviana ShuffleNetv2 para reemplazar la red principal original del modelo RCANet ResNet18 y simplificar el tamaño del modelo. Teniendo en cuenta que la red liviana reduce el número de canales de características, tiene un cierto impacto en el rendimiento del modelo. Para fortalecer el aprendizaje entre canales de características, se proponen el módulo de atención agregada de filas (RAA) y el módulo de atención agregada de columnas (CAA). El módulo RAA y el módulo CAA añaden el módulo de estrujar y excitar (SE) a los módulos originales de filas y columnas agregadas, respectivamente. Añadir el módulo SE significa que el modelo puede aprender la correlación entre los canales y mejorar el efecto de predicción del modelo liviano. Los resultados experimentales muestran que nuestro método reduce considerablemente los parámetros y el volumen del modelo mientras se garantiza una baja pérdida de rendimiento. Al final, el puntaje F1 promedio de nuestro modelo es solo un 1.77% más bajo que el modelo original, los parámetros son solo 0.17 millones y el volumen es solo 0.8 M. En comparación con el modelo original, la cantidad de parámetros y el volumen se reducen en más del 95%.
Descripción
El modelo de reconocimiento de tablas de red agregada de filas y columnas (RCANet) utiliza un enfoque de segmentación semántica para reconocer la estructura de la tabla y logra un mejor rendimiento en la segmentación de filas y columnas de la tabla. Sin embargo, este modelo utiliza ResNet18 como red principal, y el modelo tiene 11.35 millones de parámetros y un volumen de 45.5 M, lo cual es inconveniente para implementar en servidores livianos o terminales móviles. Por lo tanto, desde la perspectiva de la compresión del modelo, este artículo propone la red agregada de atención de filas y columnas livianas (LRCAANet), que utiliza la red liviana ShuffleNetv2 para reemplazar la red principal original del modelo RCANet ResNet18 y simplificar el tamaño del modelo. Teniendo en cuenta que la red liviana reduce el número de canales de características, tiene un cierto impacto en el rendimiento del modelo. Para fortalecer el aprendizaje entre canales de características, se proponen el módulo de atención agregada de filas (RAA) y el módulo de atención agregada de columnas (CAA). El módulo RAA y el módulo CAA añaden el módulo de estrujar y excitar (SE) a los módulos originales de filas y columnas agregadas, respectivamente. Añadir el módulo SE significa que el modelo puede aprender la correlación entre los canales y mejorar el efecto de predicción del modelo liviano. Los resultados experimentales muestran que nuestro método reduce considerablemente los parámetros y el volumen del modelo mientras se garantiza una baja pérdida de rendimiento. Al final, el puntaje F1 promedio de nuestro modelo es solo un 1.77% más bajo que el modelo original, los parámetros son solo 0.17 millones y el volumen es solo 0.8 M. En comparación con el modelo original, la cantidad de parámetros y el volumen se reducen en más del 95%.