Automatización de procesos empresariales: un flujo de trabajo que incorpora reconocimiento óptico de caracteres y coincidencia aproximada de cadenas y patrones para resolver problemas prácticos de la industria
Autores: de Jager, Coenrad; Nel, Marinda
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Automatización de procesos empresariales: un flujo de trabajo que incorpora reconocimiento óptico de caracteres y coincidencia aproximada de cadenas y patrones para resolver problemas prácticos de la industria
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Inteligencia artificial
Aprendizaje automático
OCR
Digitalización
Flujo de trabajo
Calidad de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Las empresas están confiando más en la inteligencia artificial y el aprendizaje automático para mejorar y automatizar los procesos comerciales existentes. Aunque el poder de las tecnologías de OCR (Reconocimiento Óptico de Caracteres) se puede aprovechar para la digitalización de datos de imágenes, el texto digitalizado aún necesita ser validado y mejorado para garantizar que se cumplan los estándares de calidad de datos para que los datos sean utilizables. Este documento de investigación se centra en encontrar y crear un flujo de trabajo automatizado que pueda seguir la digitalización de imágenes y producir un diccionario que consista en la información deseada. El flujo de trabajo presentado consta de un proceso de tres pasos que se implementa después de que se haya generado la salida de OCR. Con la introducción de cada paso, se aumenta la precisión de las coincidencias de clave-valor de los nombres de campos y los valores. El primer paso toma la salida de OCR sin procesar e identifica los nombres de campos utilizando coincidencias exactas de cadenas y los valores de campos utilizando expresiones regulares de un archivo mantenido externamente. El segundo paso introduce el emparejamiento de índices que relaciona los valores de los campos con los nombres de los campos en función de la ubicación del nombre del campo y el valor en el documento. Finalmente, se introduce la coincidencia aproximada de cadenas en el flujo de trabajo, lo que aumenta la precisión. Al implementar estos pasos, la medida F para las coincidencias de pares de clave-valor se mide en un 60.18% en el primer paso, un 80.61% una vez que se introduce el emparejamiento de índices, y finalmente un 90.06% después de que se introduce la coincidencia aproximada de cadenas. La investigación demostró que se puede obtener automáticamente datos utilizables y precisos de imágenes con la implementación de un flujo de trabajo después de OCR.
Descripción
Las empresas están confiando más en la inteligencia artificial y el aprendizaje automático para mejorar y automatizar los procesos comerciales existentes. Aunque el poder de las tecnologías de OCR (Reconocimiento Óptico de Caracteres) se puede aprovechar para la digitalización de datos de imágenes, el texto digitalizado aún necesita ser validado y mejorado para garantizar que se cumplan los estándares de calidad de datos para que los datos sean utilizables. Este documento de investigación se centra en encontrar y crear un flujo de trabajo automatizado que pueda seguir la digitalización de imágenes y producir un diccionario que consista en la información deseada. El flujo de trabajo presentado consta de un proceso de tres pasos que se implementa después de que se haya generado la salida de OCR. Con la introducción de cada paso, se aumenta la precisión de las coincidencias de clave-valor de los nombres de campos y los valores. El primer paso toma la salida de OCR sin procesar e identifica los nombres de campos utilizando coincidencias exactas de cadenas y los valores de campos utilizando expresiones regulares de un archivo mantenido externamente. El segundo paso introduce el emparejamiento de índices que relaciona los valores de los campos con los nombres de los campos en función de la ubicación del nombre del campo y el valor en el documento. Finalmente, se introduce la coincidencia aproximada de cadenas en el flujo de trabajo, lo que aumenta la precisión. Al implementar estos pasos, la medida F para las coincidencias de pares de clave-valor se mide en un 60.18% en el primer paso, un 80.61% una vez que se introduce el emparejamiento de índices, y finalmente un 90.06% después de que se introduce la coincidencia aproximada de cadenas. La investigación demostró que se puede obtener automáticamente datos utilizables y precisos de imágenes con la implementación de un flujo de trabajo después de OCR.