Analizando el razonamiento diagnóstico de modelos de visión-lenguaje a través de la provocación de pensamiento en cadena de cero disparos en la respuesta a preguntas visuales médicas
Autores: Faria, Fatema Tuj Johora; Baniata, Laith H.; Choi, Ahyoung; Kang, Sangwoo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Analizando el razonamiento diagnóstico de modelos de visión-lenguaje a través de la provocación de pensamiento en cadena de cero disparos en la respuesta a preguntas visuales médicas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Respuesta a preguntas visuales médicas
Visión por computadora
Procesamiento de lenguaje natural
Toma de decisiones clínicas
Modelos de visión-lenguaje
Atención médica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La pregunta y respuesta visual médica (MedVQA) se encuentra en la intersección de la visión por computadora, el procesamiento del lenguaje natural y la toma de decisiones clínicas, con el objetivo de generar respuestas precisas a partir de imágenes médicas emparejadas con consultas complejas. A pesar de los avances recientes en modelos visión-lenguaje (VLMs), su uso en el ámbito de la salud sigue siendo limitado por la falta de interpretabilidad y una tendencia a producir salidas directas e inexplicables.
Descripción
La pregunta y respuesta visual médica (MedVQA) se encuentra en la intersección de la visión por computadora, el procesamiento del lenguaje natural y la toma de decisiones clínicas, con el objetivo de generar respuestas precisas a partir de imágenes médicas emparejadas con consultas complejas. A pesar de los avances recientes en modelos visión-lenguaje (VLMs), su uso en el ámbito de la salud sigue siendo limitado por la falta de interpretabilidad y una tendencia a producir salidas directas e inexplicables.