Explorando la capacidad de los grandes modelos de lenguaje para describir modelos de datos conceptuales basados en esquemas de entidad-relación
Autores: Avignone, Andrea; Tierno, Alessia; Fiori, Alessandro; Chiusano, Silvia
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Explorando la capacidad de los grandes modelos de lenguaje para describir modelos de datos conceptuales basados en esquemas de entidad-relación
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Campo
Bases de datos
Modelos de Lenguaje Grande
LLMs
Consultas SQL
Modelado conceptual de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En el campo de las bases de datos, los Modelos de Lenguaje Grande (LLMs) han sido estudiados recientemente para generar consultas SQL a partir de descripciones textuales, mientras que su uso para el modelado de datos conceptual o lógico sigue siendo menos explorado. El diseño conceptual de bases de datos relacionales comúnmente se basa en el modelo de datos entidad-relación (ER), donde las reglas de traducción permiten mapear un esquema ER en tablas relacionales correspondientes con sus restricciones. Nuestro estudio investiga la capacidad de los LLMs para describir en lenguaje natural un modelo de datos conceptual de base de datos basado en el esquema ER. Ya sea para documentación, incorporación o comunicación con partes interesadas no técnicas, los LLMs pueden mejorar significativamente el proceso de explicación del esquema ER generando descripciones precisas sobre cómo interactúan los componentes así como la información representada. Para guiar al LLM con construcciones desafiantes, se definen pistas específicas para proporcionar un esquema ER enriquecido. Se han explorado diferentes LLMs (ChatGPT 3.5 y 4, Llama2, Gemini, Mistral 7B) y se utilizan diferentes métricas (puntuación F1, ROUGE, perplejidad) para evaluar la calidad de las descripciones generadas y comparar los diferentes LLMs.
Descripción
En el campo de las bases de datos, los Modelos de Lenguaje Grande (LLMs) han sido estudiados recientemente para generar consultas SQL a partir de descripciones textuales, mientras que su uso para el modelado de datos conceptual o lógico sigue siendo menos explorado. El diseño conceptual de bases de datos relacionales comúnmente se basa en el modelo de datos entidad-relación (ER), donde las reglas de traducción permiten mapear un esquema ER en tablas relacionales correspondientes con sus restricciones. Nuestro estudio investiga la capacidad de los LLMs para describir en lenguaje natural un modelo de datos conceptual de base de datos basado en el esquema ER. Ya sea para documentación, incorporación o comunicación con partes interesadas no técnicas, los LLMs pueden mejorar significativamente el proceso de explicación del esquema ER generando descripciones precisas sobre cómo interactúan los componentes así como la información representada. Para guiar al LLM con construcciones desafiantes, se definen pistas específicas para proporcionar un esquema ER enriquecido. Se han explorado diferentes LLMs (ChatGPT 3.5 y 4, Llama2, Gemini, Mistral 7B) y se utilizan diferentes métricas (puntuación F1, ROUGE, perplejidad) para evaluar la calidad de las descripciones generadas y comparar los diferentes LLMs.