logo móvil
Contáctanos

La síntesis guiada por texto en la recuperación multimedia médica: un marco para la clasificación y segmentación mejoradas de imágenes de colonoscopía

Autores: Ejiga Peter, Ojonugwa Oluwafemi; Adeniran, Opeyemi Taiwo; John-Otumu, Adetokunbo MacGregor; Khalifa, Fahmi; Rahman, Md Mahmudur

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

La síntesis guiada por texto en la recuperación multimedia médica: un marco para la clasificación y segmentación mejoradas de imágenes de colonoscopía


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Conjuntos de datos
Inteligencia artificial
Detección de cáncer colorrectal
Modelos generativos
Datos de colonoscopia
Modelos de diagnóstico médico

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
La falta de conjuntos de datos extensos, variados y exhaustivamente anotados obstaculiza el avance de la inteligencia artificial (IA) para aplicaciones médicas, especialmente la detección de cáncer colorrectal. Los modelos entrenados con diversidad limitada a menudo muestran sesgos, especialmente cuando se utilizan en grupos desfavorecidos. Los modelos generativos (por ejemplo, DALL-E 2, Red Generativa Antagónica Vectorial Cuantificada (VQ-GAN)) se han utilizado para generar imágenes pero no datos de colonoscopia para una inteligente ampliación de datos. Este estudio desarrolló un método efectivo para producir datos de imagen de colonoscopia sintéticos, que pueden utilizarse para entrenar modelos avanzados de diagnóstico médico para una detección y tratamiento robustos del cáncer colorrectal. La síntesis de texto a imagen se realizó utilizando Modelos de Lenguaje Visual Grandes (LLMs) afinados. La Difusión Estable y la Adaptación de Rango Bajo de DreamBooth producen imágenes que parecen auténticas, con una puntuación de Inception promedio de 2,36 en tres conjuntos de datos. La precisión de validación de varios modelos de clasificación Big Transfer (BiT), Red de Generación de Próxima Generación de Resolución Fija (FixResNeXt) y Red Neuronal Eficiente (EfficientNet) fue del 92%, 91% y 86%, respectivamente. Vision Transformer (ViT) y Transformadores de Imágenes Eficientes en Datos (DeiT) tuvieron una tasa de precisión del 93%. En segundo lugar, para la segmentación de pólipos, las máscaras de verdad terreno se generan utilizando el Modelo Segment Anything (SAM). Luego, se adoptaron cinco modelos de segmentación (U-Net, Red de Análisis de Escena Piramidal (PSNet), Red de Pirámide de Características (FPN), Red de Enlace (LinkNet) y Red de Atención Multiescala (MANet)). FPN produjo excelentes resultados, con una Intersección sobre Unión (IoU) de , una puntuación F1 de , una recuperación de , y un coeficiente de Dice de 0,77. Esto demuestra un rendimiento sólido en términos de precisión de segmentación y métricas de superposición, con resultados particularmente robustos en cuanto a capacidad de detección equilibrada, como se muestra por la alta puntuación F1 y el coeficiente de Dice. Esto destaca cómo las imágenes médicas generadas por IA pueden mejorar el análisis de colonoscopias, lo cual es crucial para la detección temprana del cáncer colorrectal.

Otros recursos que podrían interesarte

Temas Virtualpro