logo móvil
Contáctanos

Método de extracción de información de documentos no estructurados con asistencia de gráfico de conocimiento de dominio multifacético para la aplicación de prevención de riesgos aduaneros y detección de M2M

Autores: Tian, Fengchun; Wang, Haochen; Wan, Zhenlong; Liu, Ran; Liu, Ruilong; Lv, Di; Lin, Yingcheng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Método de extracción de información de documentos no estructurados con asistencia de gráfico de conocimiento de dominio multifacético para la aplicación de prevención de riesgos aduaneros y detección de M2M


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Seguridad nacional
Prevención de riesgos
Sistema aduanero
Tecnología de extracción inteligente
Modelo OCR
Conocimiento específico del dominio

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
Como línea crucial de defensa de la seguridad nacional, el sistema existente de prevención de riesgos y de selección de aduanas adolece de inteligencia y diversidad en cuanto a factores de identificación de riesgos. Por lo tanto, los problemas urgentes a abordar en el sistema de identificación de riesgos incluyen la tecnología de extracción inteligente de información clave de los Documentos de Acompañamiento No Estructurados de Aduanas (CUADs) y la fiabilidad de los resultados de extracción. En el escenario aduanero, se emplea OCR para las interacciones M2M, pero los modelos actuales tienen dificultades para adaptarse a diversas calidades de imagen y contenido complejo de documentos aduaneros. Proponemos un método de destilación de conocimiento de aprendizaje mutuo híbrido (HMLKD) para optimizar el rendimiento de un modelo OCR pre-entrenado frente a tales desafíos. Además, los modelos actuales carecen de la incorporación efectiva de conocimientos específicos del dominio, lo que resulta en una precisión insuficiente en el reconocimiento de texto para la identificación práctica de riesgos aduaneros. Proponemos un grafo de conocimiento del dominio aduanero (CDKG) desarrollado utilizando el conocimiento de CUAD y proponemos un método de corrección post-OCR integrado de CDKG (iCDKG-PostOCR) basado en CDKG. Los resultados en datos reales demuestran que las precisiones mejoran para los campos de texto de código al 97,70%, para los campos de tipo de carácter al 96,55% y para los campos de tipo numérico al 96,00%, con una tasa de confianza que supera el 99% en cada caso. Además, el Sistema de Extracción de Certificados de Salud de Aduanas (CHCES) desarrollado utilizando el método propuesto ha sido implementado y verificado en la Aduana de Tianjin en China, donde ha demostrado un rendimiento operativo sobresaliente.

Otros recursos que podrían interesarte

Temas Virtualpro