Método de extracción de información de documentos no estructurados con asistencia de gráfico de conocimiento de dominio multifacético para la aplicación de prevención de riesgos aduaneros y detección de M2M

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Método de extracción de información de documentos no estructurados con asistencia de gráfico de conocimiento de dominio multifacético para la aplicación de prevención de riesgos aduaneros y detección de M2M

Autores: Tian, Fengchun; Wang, Haochen; Wan, Zhenlong; Liu, Ran; Liu, Ruilong; Lv, Di; Lin, Yingcheng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Seguridad nacional

Prevención de riesgos

Sistema aduanero

Tecnología de extracción inteligente

Modelo OCR

Conocimiento específico del dominio

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

Como línea crucial de defensa de la seguridad nacional, el sistema existente de prevención de riesgos y de selección de aduanas adolece de inteligencia y diversidad en cuanto a factores de identificación de riesgos. Por lo tanto, los problemas urgentes a abordar en el sistema de identificación de riesgos incluyen la tecnología de extracción inteligente de información clave de los Documentos de Acompañamiento No Estructurados de Aduanas (CUADs) y la fiabilidad de los resultados de extracción. En el escenario aduanero, se emplea OCR para las interacciones M2M, pero los modelos actuales tienen dificultades para adaptarse a diversas calidades de imagen y contenido complejo de documentos aduaneros. Proponemos un método de destilación de conocimiento de aprendizaje mutuo híbrido (HMLKD) para optimizar el rendimiento de un modelo OCR pre-entrenado frente a tales desafíos. Además, los modelos actuales carecen de la incorporación efectiva de conocimientos específicos del dominio, lo que resulta en una precisión insuficiente en el reconocimiento de texto para la identificación práctica de riesgos aduaneros. Proponemos un grafo de conocimiento del dominio aduanero (CDKG) desarrollado utilizando el conocimiento de CUAD y proponemos un método de corrección post-OCR integrado de CDKG (iCDKG-PostOCR) basado en CDKG. Los resultados en datos reales demuestran que las precisiones mejoran para los campos de texto de código al 97,70%, para los campos de tipo de carácter al 96,55% y para los campos de tipo numérico al 96,00%, con una tasa de confianza que supera el 99% en cada caso. Además, el Sistema de Extracción de Certificados de Salud de Aduanas (CHCES) desarrollado utilizando el método propuesto ha sido implementado y verificado en la Aduana de Tianjin en China, donde ha demostrado un rendimiento operativo sobresaliente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro