Identificación de cáncer de mama secundario en órganos vitales a través de la integración de aprendizaje automático y microarrays
Autores: Riaz, Faisal; Abid, Fazeel; Din, Ikram Ud; Kim, Byung-Seo; Almogren, Ahmad; Durar, Shajara Ul
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Identificación de cáncer de mama secundario en órganos vitales a través de la integración de aprendizaje automático y microarrays
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Cáncer de mama
Metástasis
Análisis de datos de microarrays
Aprendizaje automático
Cáncer secundario
Identificadores de genes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
El cáncer de mama incluye factores genéticos y ambientales y es la malignidad más prevalente en las mujeres, contribuyendo a la patogénesis y progresión del cáncer. El pronóstico del cáncer de mama se metastatiza hacia los huesos, el hígado, el cerebro y los pulmones, y es la principal causa de muerte en los pacientes. Además, la selección de características y la clasificación son significativas en el análisis de datos de microarrays, que sufre de un enorme consumo de tiempo. Para abordar estos problemas, esta investigación integra de manera única el aprendizaje automático y los microarrays para identificar el cáncer de mama secundario en órganos vitales. Este trabajo primero imputa los valores faltantes utilizando vecinos más cercanos de K y mejora la eliminación recursiva de características con validación cruzada (RFECV) utilizando el método de bosque aleatorio. En segundo lugar, el desequilibrio de clases se maneja mediante la técnica de sobremuestreo de objetos sintéticos de K-means (SMOTE) para equilibrar la clase minoritaria y prevenir el ruido. Identificamos con éxito los 16 identificadores de genes Entrez más esenciales responsables de predecir las ubicaciones metastásicas en los huesos, cerebro, hígado y pulmones. Se realizaron experimentos extensos en los conjuntos de datos NCBI Gene Expression Omnibus GSE14020 y GSE54323. Los métodos propuestos han manejado el desequilibrio de clases, prevenido el ruido y reducido adecuadamente el consumo de tiempo. Se obtuvieron resultados confiables en cuatro modelos de clasificación: árbol de decisiones; vecinos más cercanos de K; bosque aleatorio; y máquina de vectores de soporte. Los resultados se presentan considerando matrices de confusión, precisión, ROC-AUC y PR-AUC, y puntaje F1.
Descripción
El cáncer de mama incluye factores genéticos y ambientales y es la malignidad más prevalente en las mujeres, contribuyendo a la patogénesis y progresión del cáncer. El pronóstico del cáncer de mama se metastatiza hacia los huesos, el hígado, el cerebro y los pulmones, y es la principal causa de muerte en los pacientes. Además, la selección de características y la clasificación son significativas en el análisis de datos de microarrays, que sufre de un enorme consumo de tiempo. Para abordar estos problemas, esta investigación integra de manera única el aprendizaje automático y los microarrays para identificar el cáncer de mama secundario en órganos vitales. Este trabajo primero imputa los valores faltantes utilizando vecinos más cercanos de K y mejora la eliminación recursiva de características con validación cruzada (RFECV) utilizando el método de bosque aleatorio. En segundo lugar, el desequilibrio de clases se maneja mediante la técnica de sobremuestreo de objetos sintéticos de K-means (SMOTE) para equilibrar la clase minoritaria y prevenir el ruido. Identificamos con éxito los 16 identificadores de genes Entrez más esenciales responsables de predecir las ubicaciones metastásicas en los huesos, cerebro, hígado y pulmones. Se realizaron experimentos extensos en los conjuntos de datos NCBI Gene Expression Omnibus GSE14020 y GSE54323. Los métodos propuestos han manejado el desequilibrio de clases, prevenido el ruido y reducido adecuadamente el consumo de tiempo. Se obtuvieron resultados confiables en cuatro modelos de clasificación: árbol de decisiones; vecinos más cercanos de K; bosque aleatorio; y máquina de vectores de soporte. Los resultados se presentan considerando matrices de confusión, precisión, ROC-AUC y PR-AUC, y puntaje F1.