Un marco para comprender documentos financieros no estructurados utilizando RPA y un enfoque multimodal
Autores: Cho, Seongkuk; Moon, Jihoon; Bae, Junhyeok; Kang, Jiwon; Lee, Sangwook
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un marco para comprender documentos financieros no estructurados utilizando RPA y un enfoque multimodal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Financiero
Automatización de procesos
Visión por computadora
Procesamiento de lenguaje natural
Procesamiento inteligente de documentos
Modelo de aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
El proceso comercial financiero a nivel mundial sufre de enormes dependencias en el trabajo y documentos escritos, lo que lo hace tedioso y consume mucho tiempo. Para resolver este problema, la automatización robótica de procesos tradicional (RPA) se ha desarrollado recientemente en una solución de hiper-automatización combinando métodos de visión por computadora (CV) y procesamiento de lenguaje natural (NLP). Estas soluciones son capaces de analizar imágenes, como la extracción de información clave y la clasificación de documentos. Sin embargo, podrían mejorar en imágenes de documentos ricos en texto y requieren muchos datos de entrenamiento para procesar documentos multilingües. Este estudio propone un marco de procesamiento de documentos inteligentes basado en un enfoque multimodal que combina un modelo de aprendizaje profundo pre-entrenado con RPA tradicional utilizado en bancos para automatizar procesos comerciales a partir de imágenes de documentos financieros del mundo real. El marco propuesto puede realizar la clasificación y la extracción de información clave con una pequeña cantidad de datos de entrenamiento y analizar documentos multilingües. Para evaluar la efectividad del marco propuesto, se realizaron experimentos extensos utilizando imágenes de documentos financieros coreanos. Los resultados experimentales muestran la superioridad del enfoque multimodal para comprender documentos financieros y demuestran que una etiquetación adecuada puede mejorar el rendimiento hasta aproximadamente un 15%.
Descripción
El proceso comercial financiero a nivel mundial sufre de enormes dependencias en el trabajo y documentos escritos, lo que lo hace tedioso y consume mucho tiempo. Para resolver este problema, la automatización robótica de procesos tradicional (RPA) se ha desarrollado recientemente en una solución de hiper-automatización combinando métodos de visión por computadora (CV) y procesamiento de lenguaje natural (NLP). Estas soluciones son capaces de analizar imágenes, como la extracción de información clave y la clasificación de documentos. Sin embargo, podrían mejorar en imágenes de documentos ricos en texto y requieren muchos datos de entrenamiento para procesar documentos multilingües. Este estudio propone un marco de procesamiento de documentos inteligentes basado en un enfoque multimodal que combina un modelo de aprendizaje profundo pre-entrenado con RPA tradicional utilizado en bancos para automatizar procesos comerciales a partir de imágenes de documentos financieros del mundo real. El marco propuesto puede realizar la clasificación y la extracción de información clave con una pequeña cantidad de datos de entrenamiento y analizar documentos multilingües. Para evaluar la efectividad del marco propuesto, se realizaron experimentos extensos utilizando imágenes de documentos financieros coreanos. Los resultados experimentales muestran la superioridad del enfoque multimodal para comprender documentos financieros y demuestran que una etiquetación adecuada puede mejorar el rendimiento hasta aproximadamente un 15%.