Una encuesta sobre modelos de lenguaje grandes multimodales en radiología para la generación de informes y la respuesta a preguntas visuales
Autores: Yi, Ziruo; Xiao, Ting; Albert, Mark V.
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Una encuesta sobre modelos de lenguaje grandes multimodales en radiología para la generación de informes y la respuesta a preguntas visuales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje
Modelos de visión
Procesamiento de lenguaje natural
Visión por computadora
Generación de informes de radiología
Respuesta a preguntas visuales en radiología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de lenguaje grandes (LLMs) y los modelos de visión grandes (LVMs) han impulsado avances significativos en el procesamiento del lenguaje natural (NLP) y la visión por computadora (CV), estableciendo una base para que los modelos de lenguaje multimodal grandes (MLLMs) integren diversos tipos de datos en aplicaciones del mundo real. Esta encuesta explora la evolución de los MLLMs en radiología, centrándose en la generación de informes de radiología (RRG) y en la respuesta a preguntas visuales en radiología (RVQA), donde los MLLMs aprovechan las capacidades combinadas de los LLMs y los LVMs para mejorar la eficiencia clínica. Comenzamos trazando la historia de la radiología y el desarrollo de los MLLMs, seguido de una visión general de las aplicaciones de los MLLMs en RRG y RVQA, detallando conjuntos de datos clave, métricas de evaluación y los MLLMs líderes que demuestran su potencial en la generación de informes de radiología y en la respuesta a preguntas basadas en imágenes. Luego discutimos los desafíos que enfrentan los MLLMs en radiología, incluyendo la escasez de conjuntos de datos, la privacidad y seguridad de los datos, y problemas dentro de los MLLMs como sesgo, toxicidad, alucinaciones, olvido catastrófico y limitaciones en las métricas de evaluación tradicionales. Finalmente, este documento propone direcciones de investigación futuras para abordar estos desafíos, con el objetivo de ayudar a los investigadores de IA y a los radiólogos a superar estos obstáculos y avanzar en el estudio de los MLLMs en radiología.
Descripción
Los modelos de lenguaje grandes (LLMs) y los modelos de visión grandes (LVMs) han impulsado avances significativos en el procesamiento del lenguaje natural (NLP) y la visión por computadora (CV), estableciendo una base para que los modelos de lenguaje multimodal grandes (MLLMs) integren diversos tipos de datos en aplicaciones del mundo real. Esta encuesta explora la evolución de los MLLMs en radiología, centrándose en la generación de informes de radiología (RRG) y en la respuesta a preguntas visuales en radiología (RVQA), donde los MLLMs aprovechan las capacidades combinadas de los LLMs y los LVMs para mejorar la eficiencia clínica. Comenzamos trazando la historia de la radiología y el desarrollo de los MLLMs, seguido de una visión general de las aplicaciones de los MLLMs en RRG y RVQA, detallando conjuntos de datos clave, métricas de evaluación y los MLLMs líderes que demuestran su potencial en la generación de informes de radiología y en la respuesta a preguntas basadas en imágenes. Luego discutimos los desafíos que enfrentan los MLLMs en radiología, incluyendo la escasez de conjuntos de datos, la privacidad y seguridad de los datos, y problemas dentro de los MLLMs como sesgo, toxicidad, alucinaciones, olvido catastrófico y limitaciones en las métricas de evaluación tradicionales. Finalmente, este documento propone direcciones de investigación futuras para abordar estos desafíos, con el objetivo de ayudar a los investigadores de IA y a los radiólogos a superar estos obstáculos y avanzar en el estudio de los MLLMs en radiología.