Imagen a etiqueta a respuesta: un marco eficiente para aplicaciones clínicas mejoradas en la respuesta de preguntas visuales médicas
Autores: Wang, Jianfeng; Seng, Kah Phooi; Shen, Yi; Ang, Li-Minn; Huang, Difeng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Imagen a etiqueta a respuesta: un marco eficiente para aplicaciones clínicas mejoradas en la respuesta de preguntas visuales médicas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Responder a preguntas visuales médicas
Marco ITLTA
Aprendizaje multimodal
Escasez de datos
Aprendizaje sin datos
Modelos de lenguaje grandes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
La propuesta del marco ITLTA para Med-VQA, diseñado en base a los requisitos del campo, combina el aprendizaje multi-etiqueta de imágenes médicas con las capacidades de comprensión del lenguaje y razonamiento de grandes modelos de lenguaje (LLMs) para lograr el aprendizaje de cero disparos, satisfaciendo las necesidades del módulo de lenguaje natural sin entrenamiento de extremo a extremo.
Descripción
La propuesta del marco ITLTA para Med-VQA, diseñado en base a los requisitos del campo, combina el aprendizaje multi-etiqueta de imágenes médicas con las capacidades de comprensión del lenguaje y razonamiento de grandes modelos de lenguaje (LLMs) para lograr el aprendizaje de cero disparos, satisfaciendo las necesidades del módulo de lenguaje natural sin entrenamiento de extremo a extremo.