Un modelo de similitud de texto corto que combina información semántica y sintáctica
Autores: Zhou, Ya; Li, Cheng; Huang, Guimin; Guo, Qingkai; Li, Hui; Wei, Xiong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un modelo de similitud de texto corto que combina información semántica y sintáctica
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Procesamiento de lenguaje natural
Similitud de texto corto
Similitud semántica
Similitud sintáctica
Modelo de representación de lenguaje de conocimiento
árboles de análisis de constituyentes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Como una de las direcciones de investigación destacadas en el campo del procesamiento del lenguaje natural (NLP), la similitud de textos cortos ha sido ampliamente utilizada en sistemas de recomendación de búsqueda y preguntas y respuestas. La mayoría de los modelos existentes de similitud textual corta se centran en considerar la similitud semántica mientras pasan por alto la importancia de la similitud sintáctica. En este artículo, primero proponemos un modelo de representación de lenguaje de conocimiento mejorado basado en redes convolucionales de grafos (KEBERT-GCN), que utiliza efectivamente las relaciones detalladas de palabras en la base de conocimiento para evaluar la similitud semántica y modelar la relación entre la estructura del conocimiento y la estructura del texto. Para aprovechar completamente la información sintáctica de las oraciones, también proponemos un modelo computacional de árboles de análisis de constituyentes basado en núcleos de árboles (CPT-TK), que combina información sintáctica, características semánticas y mecanismos de ponderación atencional para evaluar la similitud sintáctica. Finalmente, proponemos un modelo integral que integra tanto la información semántica como la sintáctica para evaluar de manera exhaustiva la similitud de textos cortos. Los resultados experimentales demuestran que nuestro modelo propuesto de similitud de textos cortos supera a los modelos propuestos en los últimos años, logrando un coeficiente de correlación de Pearson de 0.8805 en el conjunto de datos STS-B.
Descripción
Como una de las direcciones de investigación destacadas en el campo del procesamiento del lenguaje natural (NLP), la similitud de textos cortos ha sido ampliamente utilizada en sistemas de recomendación de búsqueda y preguntas y respuestas. La mayoría de los modelos existentes de similitud textual corta se centran en considerar la similitud semántica mientras pasan por alto la importancia de la similitud sintáctica. En este artículo, primero proponemos un modelo de representación de lenguaje de conocimiento mejorado basado en redes convolucionales de grafos (KEBERT-GCN), que utiliza efectivamente las relaciones detalladas de palabras en la base de conocimiento para evaluar la similitud semántica y modelar la relación entre la estructura del conocimiento y la estructura del texto. Para aprovechar completamente la información sintáctica de las oraciones, también proponemos un modelo computacional de árboles de análisis de constituyentes basado en núcleos de árboles (CPT-TK), que combina información sintáctica, características semánticas y mecanismos de ponderación atencional para evaluar la similitud sintáctica. Finalmente, proponemos un modelo integral que integra tanto la información semántica como la sintáctica para evaluar de manera exhaustiva la similitud de textos cortos. Los resultados experimentales demuestran que nuestro modelo propuesto de similitud de textos cortos supera a los modelos propuestos en los últimos años, logrando un coeficiente de correlación de Pearson de 0.8805 en el conjunto de datos STS-B.