logo móvil
Contáctanos

Un marco para comprender documentos financieros no estructurados utilizando RPA y un enfoque multimodal

Autores: Cho, Seongkuk; Moon, Jihoon; Bae, Junhyeok; Kang, Jiwon; Lee, Sangwook

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un marco para comprender documentos financieros no estructurados utilizando RPA y un enfoque multimodal


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Financiero
Automatización de procesos
Visión por computadora
Procesamiento de lenguaje natural
Procesamiento inteligente de documentos
Modelo de aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
El proceso comercial financiero a nivel mundial sufre de enormes dependencias en el trabajo y documentos escritos, lo que lo hace tedioso y consume mucho tiempo. Para resolver este problema, la automatización robótica de procesos tradicional (RPA) se ha desarrollado recientemente en una solución de hiper-automatización combinando métodos de visión por computadora (CV) y procesamiento de lenguaje natural (NLP). Estas soluciones son capaces de analizar imágenes, como la extracción de información clave y la clasificación de documentos. Sin embargo, podrían mejorar en imágenes de documentos ricos en texto y requieren muchos datos de entrenamiento para procesar documentos multilingües. Este estudio propone un marco de procesamiento de documentos inteligentes basado en un enfoque multimodal que combina un modelo de aprendizaje profundo pre-entrenado con RPA tradicional utilizado en bancos para automatizar procesos comerciales a partir de imágenes de documentos financieros del mundo real. El marco propuesto puede realizar la clasificación y la extracción de información clave con una pequeña cantidad de datos de entrenamiento y analizar documentos multilingües. Para evaluar la efectividad del marco propuesto, se realizaron experimentos extensos utilizando imágenes de documentos financieros coreanos. Los resultados experimentales muestran la superioridad del enfoque multimodal para comprender documentos financieros y demuestran que una etiquetación adecuada puede mejorar el rendimiento hasta aproximadamente un 15%.

Otros recursos que podrían interesarte

Temas Virtualpro