Genetformer: marco de trabajo basado en transformer para la predicción de la expresión génica en el cáncer de mama
Autores: Thaalbi, Oumeima; Akhloufi, Moulay A.
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Genetformer: marco de trabajo basado en transformer para la predicción de la expresión génica en el cáncer de mama
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Imágenes histopatológicas
Cáncer de mama
Expresión génica
Marco de aprendizaje profundo
Modelos de transformador
Datos de transcriptómica espacial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Las imágenes histopatológicas se utilizan a menudo para diagnosticar el cáncer de mama y han mostrado una alta precisión en la clasificación de subtipos de cáncer. La predicción de la expresión génica a partir de imágenes de diapositivas completas y datos de transcriptómica espacial es importante para el tratamiento del cáncer en general y del cáncer de mama en particular. Este tema ha sido un desafío en numerosos estudios. En este estudio, presentamos un marco de aprendizaje profundo llamado GeNetFormer. Evaluamos ocho modelos avanzados de transformadores que incluyen EfficientFormer, FasterViT, BEiT v2 y Swin Transformer v2, y probamos su rendimiento en la predicción de la expresión génica utilizando el conjunto de datos STNet. Este conjunto de datos contiene 68 imágenes de histología teñidas con H&E y datos de transcriptómica de diferentes tipos de cáncer de mama. Seguimos un proceso detallado para preparar los datos, que incluyó filtrar genes y puntos, normalizar los colores de tinción y crear parches de imagen más pequeños para el entrenamiento. Los modelos se entrenaron para predecir la expresión de 250 genes utilizando diferentes tamaños de imagen y funciones de pérdida. GeNetFormer logró el mejor rendimiento utilizando la función MSELoss y una resolución de 256 x 256 al integrar EfficientFormer. Predijo nueve de los diez genes principales con un coeficiente de correlación de Pearson (PCC) más alto en comparación con el método ST-Net reentrenado. Para genes biomarcadores de cáncer como DDX5 y XBP1, los valores de PCC fueron 0.7450 y 0.7203, respectivamente, superando a ST-Net, que obtuvo 0.6713 y 0.7320, respectivamente. Además, nuestro método proporcionó mejores predicciones para otros genes como FASN (0.7018 vs. 0.6968) y ERBB2 (0.6241 vs. 0.6211). Nuestros resultados muestran que GeNetFormer proporciona mejoras sobre otros modelos como ST-Net y muestran cómo las arquitecturas de transformadores son capaces de analizar datos de transcriptómica espacial para avanzar en la investigación del cáncer.
Descripción
Las imágenes histopatológicas se utilizan a menudo para diagnosticar el cáncer de mama y han mostrado una alta precisión en la clasificación de subtipos de cáncer. La predicción de la expresión génica a partir de imágenes de diapositivas completas y datos de transcriptómica espacial es importante para el tratamiento del cáncer en general y del cáncer de mama en particular. Este tema ha sido un desafío en numerosos estudios. En este estudio, presentamos un marco de aprendizaje profundo llamado GeNetFormer. Evaluamos ocho modelos avanzados de transformadores que incluyen EfficientFormer, FasterViT, BEiT v2 y Swin Transformer v2, y probamos su rendimiento en la predicción de la expresión génica utilizando el conjunto de datos STNet. Este conjunto de datos contiene 68 imágenes de histología teñidas con H&E y datos de transcriptómica de diferentes tipos de cáncer de mama. Seguimos un proceso detallado para preparar los datos, que incluyó filtrar genes y puntos, normalizar los colores de tinción y crear parches de imagen más pequeños para el entrenamiento. Los modelos se entrenaron para predecir la expresión de 250 genes utilizando diferentes tamaños de imagen y funciones de pérdida. GeNetFormer logró el mejor rendimiento utilizando la función MSELoss y una resolución de 256 x 256 al integrar EfficientFormer. Predijo nueve de los diez genes principales con un coeficiente de correlación de Pearson (PCC) más alto en comparación con el método ST-Net reentrenado. Para genes biomarcadores de cáncer como DDX5 y XBP1, los valores de PCC fueron 0.7450 y 0.7203, respectivamente, superando a ST-Net, que obtuvo 0.6713 y 0.7320, respectivamente. Además, nuestro método proporcionó mejores predicciones para otros genes como FASN (0.7018 vs. 0.6968) y ERBB2 (0.6241 vs. 0.6211). Nuestros resultados muestran que GeNetFormer proporciona mejoras sobre otros modelos como ST-Net y muestran cómo las arquitecturas de transformadores son capaces de analizar datos de transcriptómica espacial para avanzar en la investigación del cáncer.