Mejorando la Respuesta a Preguntas Médicas con LLMs a través de un Marco Híbrido de Recuperación Aumentada por Generación
Autores: Aljohani, Bushra; Alsanoosy, Tawfeeq
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Mejorando la Respuesta a Preguntas Médicas con LLMs a través de un Marco Híbrido de Recuperación Aumentada por Generación
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Naturaleza
Campo médico
Modelos de Lenguaje Grande
Generación Aumentada por Recuperación
Marco modular de RAG
Estrategia de recuperación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Dada la naturaleza intensiva en conocimiento y en rápida expansión del campo médico, sintetizar e interpretar hallazgos con precisión sigue siendo un gran desafío para los clínicos y estudiantes de medicina. Aunque los Modelos de Lenguaje Grande (LLMs) han avanzado en la resumación automatizada o en la generación de respuestas, su implementación está limitada por alucinaciones, conocimiento desactualizado y adaptación insuficiente al dominio. La Generación Aumentada por Recuperación (RAG) aborda estos problemas al fundamentar los LLMs en bases de conocimiento externas. Sin embargo, a medida que el corpus de documentos se expande, mantener la precisión de RAG se vuelve cada vez más difícil, lo que hace que los recuperadores sean críticos para la relevancia contextual. En este artículo, examinamos la eficiencia de un marco RAG modular con una estrategia de recuperación híbrida que combina recuperación escasa (BM25) y recuperación densa (MedCPT) para extraer los documentos más relevantes del corpus, proporcionando así una fundamentación contextual para que el LLM mejore las respuestas médicas. La evaluación se realizó en tres conjuntos de datos de referencia en salud: PubMedQA, MedMCQA y MedQA-US, utilizando dos LLMs, GPT-4o y BioGPT. El rendimiento se evaluó utilizando métricas de recuperación (precisión contextual, recuperación contextual, F1-score) y métricas de generación (BERTScore, RAG Assessment Score). El recuperador híbrido logró un 92.14% de recuperación, un 74.36% de precisión y un F1-score de 82.30%. GPT-4o con recuperación híbrida alcanzó un 89.4% de fidelidad, un 82.7% de relevancia de respuesta y un F1BERT de 88.0% en PubMedQA. Los resultados demostraron que la recuperación híbrida dentro de una arquitectura modular mejora sustancialmente la efectividad de recuperación y la calidad de respuesta. El trabajo propuesto ofrece una solución escalable y generalizable para aplicaciones de salud de alto riesgo, apoyando la integración flexible de recuperadores y una evaluación robusta para avanzar en sistemas de QA transparentes.
Descripción
Dada la naturaleza intensiva en conocimiento y en rápida expansión del campo médico, sintetizar e interpretar hallazgos con precisión sigue siendo un gran desafío para los clínicos y estudiantes de medicina. Aunque los Modelos de Lenguaje Grande (LLMs) han avanzado en la resumación automatizada o en la generación de respuestas, su implementación está limitada por alucinaciones, conocimiento desactualizado y adaptación insuficiente al dominio. La Generación Aumentada por Recuperación (RAG) aborda estos problemas al fundamentar los LLMs en bases de conocimiento externas. Sin embargo, a medida que el corpus de documentos se expande, mantener la precisión de RAG se vuelve cada vez más difícil, lo que hace que los recuperadores sean críticos para la relevancia contextual. En este artículo, examinamos la eficiencia de un marco RAG modular con una estrategia de recuperación híbrida que combina recuperación escasa (BM25) y recuperación densa (MedCPT) para extraer los documentos más relevantes del corpus, proporcionando así una fundamentación contextual para que el LLM mejore las respuestas médicas. La evaluación se realizó en tres conjuntos de datos de referencia en salud: PubMedQA, MedMCQA y MedQA-US, utilizando dos LLMs, GPT-4o y BioGPT. El rendimiento se evaluó utilizando métricas de recuperación (precisión contextual, recuperación contextual, F1-score) y métricas de generación (BERTScore, RAG Assessment Score). El recuperador híbrido logró un 92.14% de recuperación, un 74.36% de precisión y un F1-score de 82.30%. GPT-4o con recuperación híbrida alcanzó un 89.4% de fidelidad, un 82.7% de relevancia de respuesta y un F1BERT de 88.0% en PubMedQA. Los resultados demostraron que la recuperación híbrida dentro de una arquitectura modular mejora sustancialmente la efectividad de recuperación y la calidad de respuesta. El trabajo propuesto ofrece una solución escalable y generalizable para aplicaciones de salud de alto riesgo, apoyando la integración flexible de recuperadores y una evaluación robusta para avanzar en sistemas de QA transparentes.