Mamografías sintéticas que preservan la privacidad: un enfoque de modelo generativo para conjuntos de datos de imágenes mamarias que preservan la privacidad
Autores: Shodiev, Damir; Ushakov, Egor; Litvinov, Arsenii; Markin, Yury
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Mamografías sintéticas que preservan la privacidad: un enfoque de modelo generativo para conjuntos de datos de imágenes mamarias que preservan la privacidad
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje automático
Imágenes médicas
Enfoques que preservan la privacidad
Modelos generativos
Datos sintéticos
Utilidad diagnóstica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Se ha logrado un progreso significativo en el campo del aprendizaje automático, lo que ha permitido el desarrollo de métodos para la interpretación automática de imágenes médicas que proporcionan diagnósticos de alta calidad. Sin embargo, la mayoría de estos métodos requieren acceso a datos confidenciales, lo que dificulta su aplicación bajo estrictos requisitos de privacidad. Los enfoques existentes para preservar la privacidad, como el aprendizaje federado y la destilación de conjuntos de datos, tienen limitaciones relacionadas con el acceso a los datos, la interpretabilidad visual, etc. Este estudio explora el uso de modelos generativos para crear datos médicos sintéticos que preserven las propiedades estadísticas de los datos originales mientras se garantiza la privacidad. La investigación se lleva a cabo en el conjunto de datos VinDr-Mammo de imágenes de mamografía digital. Se propone un método generativo condicional utilizando Modelos de Difusión Latente (LDMs) con condicionamiento en etiquetas diagnósticas e información sobre lesiones. La utilidad diagnóstica y la robustez de la privacidad se evalúan a través de tareas de clasificación de cáncer y tareas de re-identificación utilizando redes neuronales siamesas e inferencia de membresía. Los datos sintéticos generados lograron una Distancia de Fréchet Inception (FID) de 5.8, preservando características diagnósticas. Un modelo entrenado únicamente con datos sintéticos logró un rendimiento comparable al de uno entrenado con datos reales (ROC-AUC: 0.77 frente a 0.82). Las evaluaciones visuales mostraron que las imágenes sintéticas son indistinguibles de las reales. Las evaluaciones de privacidad demostraron un bajo riesgo de re-identificación (por ejemplo, mAP@R = 0.0051 en el conjunto de prueba), confirmando la efectividad del enfoque de preservación de la privacidad. El estudio demuestra que los modelos generativos que preservan la privacidad pueden producir imágenes médicas sintéticas con calidad suficiente para tareas diagnósticas, al tiempo que reducen significativamente el riesgo de re-identificación de pacientes. Este enfoque permite el intercambio seguro de datos y el entrenamiento de modelos en dominios sensibles a la privacidad, como la imagen médica.
Descripción
Se ha logrado un progreso significativo en el campo del aprendizaje automático, lo que ha permitido el desarrollo de métodos para la interpretación automática de imágenes médicas que proporcionan diagnósticos de alta calidad. Sin embargo, la mayoría de estos métodos requieren acceso a datos confidenciales, lo que dificulta su aplicación bajo estrictos requisitos de privacidad. Los enfoques existentes para preservar la privacidad, como el aprendizaje federado y la destilación de conjuntos de datos, tienen limitaciones relacionadas con el acceso a los datos, la interpretabilidad visual, etc. Este estudio explora el uso de modelos generativos para crear datos médicos sintéticos que preserven las propiedades estadísticas de los datos originales mientras se garantiza la privacidad. La investigación se lleva a cabo en el conjunto de datos VinDr-Mammo de imágenes de mamografía digital. Se propone un método generativo condicional utilizando Modelos de Difusión Latente (LDMs) con condicionamiento en etiquetas diagnósticas e información sobre lesiones. La utilidad diagnóstica y la robustez de la privacidad se evalúan a través de tareas de clasificación de cáncer y tareas de re-identificación utilizando redes neuronales siamesas e inferencia de membresía. Los datos sintéticos generados lograron una Distancia de Fréchet Inception (FID) de 5.8, preservando características diagnósticas. Un modelo entrenado únicamente con datos sintéticos logró un rendimiento comparable al de uno entrenado con datos reales (ROC-AUC: 0.77 frente a 0.82). Las evaluaciones visuales mostraron que las imágenes sintéticas son indistinguibles de las reales. Las evaluaciones de privacidad demostraron un bajo riesgo de re-identificación (por ejemplo, mAP@R = 0.0051 en el conjunto de prueba), confirmando la efectividad del enfoque de preservación de la privacidad. El estudio demuestra que los modelos generativos que preservan la privacidad pueden producir imágenes médicas sintéticas con calidad suficiente para tareas diagnósticas, al tiempo que reducen significativamente el riesgo de re-identificación de pacientes. Este enfoque permite el intercambio seguro de datos y el entrenamiento de modelos en dominios sensibles a la privacidad, como la imagen médica.