logo móvil
Contáctanos

Selección de características en la clasificación de cáncer: utilizando inteligencia artificial explicativa para descubrir genes influyentes en modelos de aprendizaje automático

Autores: Dalmolin, Matheus; Azevedo, Karolayne S.; Souza, Luísa C. de; de Farias, Caroline B.; Lichtenfels, Martina; Fernandes, Marcelo A. C.

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Selección de características en la clasificación de cáncer: utilizando inteligencia artificial explicativa para descubrir genes influyentes en modelos de aprendizaje automático


Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Aprendizaje automático
Genes
Tipos de cáncer
Método SHAP
Modelos de ML
Datos de expresión génica

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
Este estudio investiga el uso de modelos de aprendizaje automático (ML) combinados con técnicas de inteligencia artificial explicables (XAI) para identificar los genes más influyentes en la clasificación de cinco tipos de cáncer recurrente en mujeres: cáncer de mama (BRCA), adenocarcinoma de pulmón (LUAD), cáncer de tiroides (THCA), cáncer de ovario (OV) y adenocarcinoma de colon (COAD). Los datos de expresión génica de RNA-seq, extraídos de The Cancer Genome Atlas (TCGA), se utilizaron para entrenar los modelos de ML, incluidos árboles de decisión (DTs), bosques aleatorios (RF) y XGBoost (XGB), que lograron precisión de 98.69%, 99.82% y 99.37%, respectivamente. Sin embargo, los desafíos en este análisis incluyeron la alta dimensionalidad del conjunto de datos y la falta de transparencia en los modelos de ML. Para mitigar estos desafíos, se aplicó el método SHAP (Shapley Additive Explanations) para generar una lista de características, con el objetivo de comprender qué características influenciaron los procesos de toma de decisiones de los modelos y, en consecuencia, los resultados de predicción para los cinco tipos de tumores. El análisis SHAP identificó 119, 80 y 10 genes para los modelos RF, XGB y DT, respectivamente, totalizando 209 genes, lo que resulta en 172 genes únicos. La nueva lista, que representa el 0.8% de las características de entrada originales, es coherente y completamente explicable, aumentando la confianza en los modelos aplicados. Además, los resultados sugieren que el método SHAP puede utilizarse de manera efectiva como un selector de características en datos de expresión génica. Este enfoque no solo mejora la transparencia del modelo, sino que también mantiene un alto rendimiento de clasificación, destacando su potencial en la identificación de características biológicamente relevantes que pueden servir como biomarcadores para el diagnóstico y planificación del tratamiento del cáncer.

Otros recursos que podrían interesarte

Temas Virtualpro