Método de recuperación multimodal para imágenes e informes diagnósticos utilizando atención cruzada
Autores: Sata, Ikumi; Amagasaki, Motoki; Kiyama, Masato
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Método de recuperación multimodal para imágenes e informes diagnósticos utilizando atención cruzada
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Recuperación de imágenes médicas
Incrustaciones
Mecanismo de atención cruzada
Modelo BioMedCLIP
Multimodal
Innovación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Los métodos convencionales de recuperación de imágenes médicas tratan las imágenes y el texto como incrustaciones independientes, lo que limita su capacidad para utilizar completamente la información complementaria de ambas modalidades. Esta separación a menudo resulta en un rendimiento de recuperación subóptimo, ya que las relaciones intrincadas entre las imágenes y el texto permanecen poco exploradas. Para abordar esta limitación, proponemos un método de recuperación novedoso que integra incrustaciones de imágenes médicas y texto utilizando un mecanismo de atención cruzada. Nuestro enfoque crea una representación unificada al modelar directamente las interacciones entre las dos modalidades, mejorando significativamente la precisión de la recuperación. Basado en el modelo pre-entrenado BioMedCLIP, nuestro método supera a las técnicas existentes en múltiples métricas, logrando la mayor Precisión Promedio (mAP) en el conjunto de datos MIMIC-CXR. Estos resultados destacan la efectividad de nuestro método en el avance de la recuperación de imágenes médicas multimodales y sientan las bases para una mayor innovación en el campo.
Descripción
Los métodos convencionales de recuperación de imágenes médicas tratan las imágenes y el texto como incrustaciones independientes, lo que limita su capacidad para utilizar completamente la información complementaria de ambas modalidades. Esta separación a menudo resulta en un rendimiento de recuperación subóptimo, ya que las relaciones intrincadas entre las imágenes y el texto permanecen poco exploradas. Para abordar esta limitación, proponemos un método de recuperación novedoso que integra incrustaciones de imágenes médicas y texto utilizando un mecanismo de atención cruzada. Nuestro enfoque crea una representación unificada al modelar directamente las interacciones entre las dos modalidades, mejorando significativamente la precisión de la recuperación. Basado en el modelo pre-entrenado BioMedCLIP, nuestro método supera a las técnicas existentes en múltiples métricas, logrando la mayor Precisión Promedio (mAP) en el conjunto de datos MIMIC-CXR. Estos resultados destacan la efectividad de nuestro método en el avance de la recuperación de imágenes médicas multimodales y sientan las bases para una mayor innovación en el campo.