Integrando estructura relacional a gráficos heterogéneos para analizadores chinos NL2SQL
Autores: Ma, Changzhe; Zhang, Wensheng; Huang, Mengxing; Feng, Siling; Wu, Yuanyuan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Integrando estructura relacional a gráficos heterogéneos para analizadores chinos NL2SQL
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelos
Tareas NL2SQL
Datos de texto en chino
Gráfico heterogéneo
Mecanismo de atención de posición relativa
Esquema de base de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Los modelos existentes para tareas NL2SQL están principalmente orientados hacia el texto en inglés y no pueden resolver los problemas de reutilización de nombres de columnas en datos de texto en chino, descripción en consultas de lenguaje natural y representación inconsistente de datos almacenados en la base de datos. Para abordar este problema, este documento propone un modelo chino de NL2SQL de dominio cruzado basado en un grafo heterogéneo y un mecanismo de atención de posición relativa. Este modelo introduce información de estructura relacional definida por el experto para construir grafos heterogéneos iniciales para esquemas de bases de datos y preguntas en lenguaje natural. El grafo heterogéneo se poda en función de las preguntas en lenguaje natural, y se utiliza un mecanismo de atención de posición relativa de múltiples cabezas para codificar el esquema de la base de datos y las preguntas en lenguaje natural. La declaración SQL objetivo se genera utilizando un decodificador estructurado en árbol con una sintaxis SQL predefinida. Los resultados experimentales en el conjunto de datos CSpider demuestran que nuestro modelo alinea mejor el esquema de la base de datos con las preguntas en lenguaje natural y comprende la información semántica en las consultas en lenguaje natural, mejorando efectivamente la precisión de coincidencia de la generación de declaraciones SQL en chino de múltiples tablas.
Descripción
Los modelos existentes para tareas NL2SQL están principalmente orientados hacia el texto en inglés y no pueden resolver los problemas de reutilización de nombres de columnas en datos de texto en chino, descripción en consultas de lenguaje natural y representación inconsistente de datos almacenados en la base de datos. Para abordar este problema, este documento propone un modelo chino de NL2SQL de dominio cruzado basado en un grafo heterogéneo y un mecanismo de atención de posición relativa. Este modelo introduce información de estructura relacional definida por el experto para construir grafos heterogéneos iniciales para esquemas de bases de datos y preguntas en lenguaje natural. El grafo heterogéneo se poda en función de las preguntas en lenguaje natural, y se utiliza un mecanismo de atención de posición relativa de múltiples cabezas para codificar el esquema de la base de datos y las preguntas en lenguaje natural. La declaración SQL objetivo se genera utilizando un decodificador estructurado en árbol con una sintaxis SQL predefinida. Los resultados experimentales en el conjunto de datos CSpider demuestran que nuestro modelo alinea mejor el esquema de la base de datos con las preguntas en lenguaje natural y comprende la información semántica en las consultas en lenguaje natural, mejorando efectivamente la precisión de coincidencia de la generación de declaraciones SQL en chino de múltiples tablas.