logo móvil
Contáctanos

Extracción conjunta de entidad-relación de una sola etapa de información de registro de pesticidas basada en la estrategia de etiquetado multidimensional HT-BES

Autores: Dong, Chenyang; Xi, Shiyu; Che, Yinchao; Xiong, Shufeng; Ma, Xinming; Xi, Lei; Xiong, Shuping

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Extracción conjunta de entidad-relación de una sola etapa de información de registro de pesticidas basada en la estrategia de etiquetado multidimensional HT-BES


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Registro de pesticidas
Datos de texto
Modelo de extracción conjunta entidad-relación
Características semánticas
Características sintácticas
Etiquetado multidimensional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
La información de registro de pesticidas es una parte esencial de la base de conocimientos de pesticidas. Sin embargo, la gran cantidad de datos de texto no estructurados que contiene plantea desafíos significativos para el almacenamiento, recuperación y utilización del conocimiento. Para abordar las características del texto de registro de pesticidas, como la alta densidad de información, las estructuras lógicas complejas, los grandes espacios entre entidades y las longitudes heterogéneas de las entidades, así como para superar los desafíos enfrentados al utilizar métodos tradicionales de extracción conjunta, incluida la superposición de tripletes, el sesgo de exposición y la computación redundante, proponemos un modelo de extracción conjunta de entidad-relación de una sola etapa basado en el etiquetado multidimensional HT-BES (MD-SERel). Primero, en la capa de codificación, para abordar las características estructurales complejas de los textos de registro de pesticidas, empleamos RoBERTa combinado con un mecanismo de autoatención multi-cabeza para capturar las características semánticas profundas del texto. Simultáneamente, se extraen características sintácticas utilizando un árbol de dependencia sintáctica y redes neuronales gráficas para mejorar la comprensión del modelo de la estructura del texto. Posteriormente, integramos características semánticas y sintácticas, enriqueciendo las representaciones vectoriales de caracteres y mejorando así la capacidad del modelo para representar datos textuales complejos. En segundo lugar, en la capa de marco de etiquetado multidimensional, utilizamos el etiquetado multidimensional HT-BES, donde el modelo asigna múltiples etiquetas a cada carácter. Estas etiquetas incluyen límites de entidad, posiciones e información de asociación de entidad cabeza-cola, lo que resuelve naturalmente los tripletes superpuestos. A través de la utilización de una función de puntuación paralela y componentes de clasificación detallada, la extracción conjunta de entidades y relaciones se transforma en una tarea de etiquetado de secuencia multi-etiqueta basada en dimensiones de relación. Este proceso no implica pasos interdependientes, lo que permite el etiquetado paralelo de una sola etapa, evitando el sesgo de exposición y reduciendo la redundancia computacional. Finalmente, en la capa de decodificación, los tripletes entidad-relación se decodifican en función de las etiquetas predichas de la clasificación detallada. Los resultados experimentales demuestran que el modelo MD-SERel funciona bien tanto en el Conjunto de Datos de Registro de Pesticidas (PRD) como en el conjunto de datos general DuIE. En el PRD, en comparación con el modelo base óptimo, el tiempo de entrenamiento es 1.2 veces más rápido, el tiempo de inferencia es 1.2 veces más rápido y el puntaje F1 se mejora en un 1.5%, demostrando sus capacidades de extracción de conocimiento en documentos de registro de pesticidas. En el conjunto de datos DuIE, el modelo MD-SERel también logró mejores resultados en comparación con el modelo base, demostrando su fuerte capacidad de generalización. Estos hallazgos proporcionarán apoyo técnico para la construcción de bases de conocimientos de pesticidas.

Otros recursos que podrían interesarte

Temas Virtualpro