logo móvil
Contáctanos

Diagnóstico de cáncer por interacciones gen-ambiente a través de la combinación de enfoques SMOTE-Tomek y de cribado de grupos superpuestos con aplicación a datos clínicos y genómicos desequilibrados de TCGA

Autores: Wang, Jie-Huei; Liu, Cheng-Yu; Min, You-Ruei; Wu, Zih-Han; Hou, Po-Lin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Diagnóstico de cáncer por interacciones gen-ambiente a través de la combinación de enfoques SMOTE-Tomek y de cribado de grupos superpuestos con aplicación a datos clínicos y genómicos desequilibrados de TCGA


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Desarrollo del cáncer
Interacciones gen-ambiente
Expresión génica de microarrays
Procedimiento SMOTE-Tomek
Información de vías génicas
Resultados binarios desequilibrados

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
La complejidad del desarrollo del cáncer implica interacciones intrincadas entre múltiples biomarcadores, como las interacciones gen-ambiente. La utilización de datos de perfiles de expresión génica de microarrays para la clasificación del cáncer se espera que sea efectiva, lo que ha suscitado un considerable interés en los campos de la bioinformática y la biología computacional. Debido a las características de los datos genómicos, existen problemas de interacciones de alta dimensionalidad y de interferencia de ruido durante el proceso de análisis. Al construir modelos de diagnóstico de cáncer, a menudo nos enfrentamos al dilema de los errores de adaptación del modelo debido a un desequilibrio de tipos de datos. Para mitigar los problemas, aplicamos el procedimiento SMOTE-Tomek para rectificar el problema del desequilibrio. A continuación, utilizamos el método de selección de grupos superpuestos junto con un modelo de regresión logística binaria para integrar información de vías génicas, facilitando la identificación de biomarcadores significativos asociados con resultados clínicamente desequilibrados de cáncer o normales. Estudios de simulación en diferentes tasas de desequilibrio y estructuras génicas validan la efectividad de nuestro método propuesto, superando técnicas comunes de aprendizaje automático en términos de precisión de predicción de clasificación. También demostramos que el rendimiento de la predicción mejora con el tratamiento SMOTE-Tomek en comparación con el tratamiento sin desequilibrio y el tratamiento SMOTE en varias tasas de desequilibrio. En la aplicación del mundo real, integramos datos clínicos y de expresión génica con información previa de vías. Empleamos SMOTE-Tomek y nuestros métodos propuestos para identificar biomarcadores críticos e interacciones gen-ambiente vinculadas a los resultados binarios desequilibrados (cáncer o normales) en pacientes de los conjuntos de datos del Atlas del Genoma del Cáncer de adenocarcinoma de pulmón y carcinoma invasivo de mama. Nuestro método propuesto logra consistentemente una precisión de clasificación satisfactoria. Además, hemos identificado biomarcadores indicativos de interacciones gen-ambiente relevantes para el cáncer y hemos proporcionado estimaciones correspondientes de odds ratios. Además, en datos desequilibrados de alta dimensionalidad, para lograr buenos resultados de predicción, recomendamos considerar el orden de procesamiento de equilibrio y la selección de características.

Otros recursos que podrían interesarte

Temas Virtualpro