Explorando el potencial de BERT-BiLSTM-CRF y el mecanismo de atención en la construcción de un grafo de conocimiento turístico
Autores: Xu, Hongsheng; Fan, Ganglong; Kuang, Guofang; Wang, Chuqiao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Explorando el potencial de BERT-BiLSTM-CRF y el mecanismo de atención en la construcción de un grafo de conocimiento turístico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Gráfico de conocimiento
Turismo
Construcción
Recursos de datos
Desorden de información
Reconocimiento de entidades
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Como una infraestructura importante en la era de los grandes datos, el grafo de conocimiento puede integrar y gestionar recursos de datos. Por lo tanto, la construcción de grafos de conocimiento turístico con amplia cobertura y de alta calidad en términos de información desde la perspectiva de las necesidades de los turistas es una solución efectiva al problema del desorden de información en el campo del turismo. Este documento analiza primero el estado actual de la investigación nacional e internacional sobre la construcción de grafos de conocimiento turístico y destaca los problemas asociados con la construcción de grafos de conocimiento, que son que son consumidores de tiempo, laboriosos y tienen una única función. Con el fin de compensar estas deficiencias, este documento propone un conjunto de métodos sistemáticos para construir un grafo de conocimiento turístico. Este método integra los modelos BiLSTM y BERT y los combina con el mecanismo de atención. Los pasos de este método son los siguientes: Primero, se realiza un preprocesamiento de datos mediante segmentación de palabras y eliminación de palabras vacías; segundo, después de extraer las características y vectorizar las palabras, se utiliza el método de similitud coseno para clasificar el texto turístico, comparando la clasificación de texto basada en el teorema de Bayes ingenuo a través de experimentos; tercero, las palabras turísticas populares se obtienen a través del modelo de análisis de popularidad. Este documento propone dos modelos para obtener palabras populares: Uno es un modelo de análisis de popularidad de producto turístico multidimensional basado en análisis de componentes principales; el otro es un modelo de análisis de popularidad basado en análisis de emociones; cuarto, este documento utiliza el modelo BiLSTM-CRF para identificar entidades y el método de similitud coseno para predecir la relación entre entidades con el fin de extraer tripletes de conocimiento turístico de alta calidad. Con el objetivo de mejorar el efecto del reconocimiento de entidades, este documento propone el reconocimiento de entidades basado en los modelos BiLSTM-LPT y BiLSTM-Hanlp. Los resultados experimentales muestran que el modelo puede mejorar eficazmente la eficiencia del reconocimiento de entidades; finalmente, un conocimiento turístico de alta calidad se importó a la base de datos gráfica Neo4j para construir un grafo de conocimiento turístico.
Descripción
Como una infraestructura importante en la era de los grandes datos, el grafo de conocimiento puede integrar y gestionar recursos de datos. Por lo tanto, la construcción de grafos de conocimiento turístico con amplia cobertura y de alta calidad en términos de información desde la perspectiva de las necesidades de los turistas es una solución efectiva al problema del desorden de información en el campo del turismo. Este documento analiza primero el estado actual de la investigación nacional e internacional sobre la construcción de grafos de conocimiento turístico y destaca los problemas asociados con la construcción de grafos de conocimiento, que son que son consumidores de tiempo, laboriosos y tienen una única función. Con el fin de compensar estas deficiencias, este documento propone un conjunto de métodos sistemáticos para construir un grafo de conocimiento turístico. Este método integra los modelos BiLSTM y BERT y los combina con el mecanismo de atención. Los pasos de este método son los siguientes: Primero, se realiza un preprocesamiento de datos mediante segmentación de palabras y eliminación de palabras vacías; segundo, después de extraer las características y vectorizar las palabras, se utiliza el método de similitud coseno para clasificar el texto turístico, comparando la clasificación de texto basada en el teorema de Bayes ingenuo a través de experimentos; tercero, las palabras turísticas populares se obtienen a través del modelo de análisis de popularidad. Este documento propone dos modelos para obtener palabras populares: Uno es un modelo de análisis de popularidad de producto turístico multidimensional basado en análisis de componentes principales; el otro es un modelo de análisis de popularidad basado en análisis de emociones; cuarto, este documento utiliza el modelo BiLSTM-CRF para identificar entidades y el método de similitud coseno para predecir la relación entre entidades con el fin de extraer tripletes de conocimiento turístico de alta calidad. Con el objetivo de mejorar el efecto del reconocimiento de entidades, este documento propone el reconocimiento de entidades basado en los modelos BiLSTM-LPT y BiLSTM-Hanlp. Los resultados experimentales muestran que el modelo puede mejorar eficazmente la eficiencia del reconocimiento de entidades; finalmente, un conocimiento turístico de alta calidad se importó a la base de datos gráfica Neo4j para construir un grafo de conocimiento turístico.