Transformando el acceso a datos médicos: el papel y los desafíos de los modelos de lenguaje recientes en la automatización de consultas SQL
Autores: Tankovi, Nikola; ajina, Robert; Lorencin, Ivan
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Transformando el acceso a datos médicos: el papel y los desafíos de los modelos de lenguaje recientes en la automatización de consultas SQL
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Consultas
Modelos de lenguaje
SQL
Médico
Rendimiento
Atención médica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Generar consultas SQL precisas a partir del lenguaje natural es fundamental para permitir que los no expertos interactúen con bases de datos complejas, especialmente en dominios de alto riesgo como la salud. Este estudio presenta una evaluación exhaustiva de los modelos de lenguaje grandes (LLM) de última generación, incluidos LLaMA 3.3, Mixtral, Gemini, Claude 3.5, GPT-4o y Qwen para transformar preguntas médicas en consultas SQL ejecutables utilizando los conjuntos de datos MIMIC-3 y TREQS. Nuestro enfoque emplea LLM con varios inicios a lo largo de 1000 preguntas en lenguaje natural. Los experimentos se repiten varias veces para evaluar la consistencia del rendimiento, la eficiencia de tokens y la rentabilidad. Exploramos el impacto del diseño del inicio en la precisión del modelo a través de un estudio de ablación, centrándonos en el papel de las muestras de datos de tablas y ejemplos de aprendizaje de una sola vez. Los resultados resaltan importantes compensaciones entre precisión, consistencia y costo computacional entre los modelos. Este estudio también subraya las limitaciones de los modelos actuales en el manejo de terminología médica y proporciona ideas para mejorar la generación de consultas SQL en el dominio de la salud. Las direcciones futuras incluyen la implementación de tuberías RAG basadas en incrustaciones y modelos de reordenamiento, la integración de taxonomías ICD y la refinación de métricas de evaluación para el rendimiento de consultas médicas. Al cerrar estas brechas, los modelos de lenguaje pueden convertirse en herramientas confiables para la interacción con bases de datos médicas, mejorando la accesibilidad y la toma de decisiones en entornos clínicos.
Descripción
Generar consultas SQL precisas a partir del lenguaje natural es fundamental para permitir que los no expertos interactúen con bases de datos complejas, especialmente en dominios de alto riesgo como la salud. Este estudio presenta una evaluación exhaustiva de los modelos de lenguaje grandes (LLM) de última generación, incluidos LLaMA 3.3, Mixtral, Gemini, Claude 3.5, GPT-4o y Qwen para transformar preguntas médicas en consultas SQL ejecutables utilizando los conjuntos de datos MIMIC-3 y TREQS. Nuestro enfoque emplea LLM con varios inicios a lo largo de 1000 preguntas en lenguaje natural. Los experimentos se repiten varias veces para evaluar la consistencia del rendimiento, la eficiencia de tokens y la rentabilidad. Exploramos el impacto del diseño del inicio en la precisión del modelo a través de un estudio de ablación, centrándonos en el papel de las muestras de datos de tablas y ejemplos de aprendizaje de una sola vez. Los resultados resaltan importantes compensaciones entre precisión, consistencia y costo computacional entre los modelos. Este estudio también subraya las limitaciones de los modelos actuales en el manejo de terminología médica y proporciona ideas para mejorar la generación de consultas SQL en el dominio de la salud. Las direcciones futuras incluyen la implementación de tuberías RAG basadas en incrustaciones y modelos de reordenamiento, la integración de taxonomías ICD y la refinación de métricas de evaluación para el rendimiento de consultas médicas. Al cerrar estas brechas, los modelos de lenguaje pueden convertirse en herramientas confiables para la interacción con bases de datos médicas, mejorando la accesibilidad y la toma de decisiones en entornos clínicos.