Un algoritmo integrado con selección de características, aumento de datos y XGBoost para el cáncer de ovario
Autores: Cai, Jingxun; Lee, Zne-Jung; Lin, Zhihxian; Hsu, Chih-Hung; Lin, Yun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un algoritmo integrado con selección de características, aumento de datos y XGBoost para el cáncer de ovario
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Cáncer de ovario
Diagnóstico
Datos genéticos
Modelo de predicción
Aprendizaje automático
Clasificador XGBoost
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
El cáncer de ovario es uno de los cánceres ginecológicos más agresivos debido a su alta invasión y resistencia a la quimioterapia. No solo tiene una alta tasa de incidencia, sino que también encabeza la lista de tasas de mortalidad. Sus síntomas iniciales sutiles dificultan el diagnóstico posterior, retrasando significativamente el tratamiento oportuno para los pacientes. Una vez que el cáncer de ovario alcanza una etapa avanzada, la complejidad y dificultad del tratamiento aumentan sustancialmente, afectando las tasas de supervivencia de los pacientes. Por lo tanto, es crucial que tanto los profesionales médicos como los pacientes permanezcan muy vigilantes sobre los primeros signos de cáncer de ovario para garantizar una intervención oportuna. En los últimos años, la investigación de predicción del cáncer de ovario ha avanzado, lo que permite analizar la probabilidad y el tipo de cáncer en función de los datos genéticos de los pacientes. Con el rápido desarrollo del aprendizaje automático, han surgido numerosos modelos de predicción de clasificación eficientes. Estas nuevas tecnologías ofrecen oportunidades significativas y potencial para desarrollar métodos de predicción diagnóstica del cáncer de ovario. Sin embargo, los enfoques tradicionales a menudo luchan por lograr una precisión de clasificación satisfactoria en conjuntos de datos genéticos de alta dimensionalidad con tamaños de muestra pequeños. Esta investigación ofrece un modelo de predicción que utiliza datos genómicos para mejorar la tasa de diagnóstico temprano del cáncer de ovario, incorporando selección de características, aumento de datos a través de redes generativas adversarias condicionales (AC-GAN) y un clasificador de aumento extremo (XGBoost). Primero, podemos simplificar el conjunto de datos genéticos original a través de métodos de selección de características, eliminando variables irrelevantes y ruido, mejorando así la precisión predictiva del modelo. Tras la reducción de la dimensionalidad, AC-GAN enriquece los datos, produciendo muestras genéticas más realistas para mejorar la capacidad de generalización del modelo. Finalmente, se aplica el clasificador XGBoost para clasificar los datos aumentados, logrando predicciones eficientes para el cáncer de ovario. Estos hallazgos de investigación demuestran firmemente que el método de diagnóstico propuesto en este documento tiene una ventaja significativa en el diagnóstico predictivo del cáncer de ovario, con una precisión del 99.01% que supera las tecnologías actuales en uso. Además, el algoritmo identifica doce genes altamente relevantes para el cáncer de ovario, proporcionando información valiosa para los médicos durante el diagnóstico.
Descripción
El cáncer de ovario es uno de los cánceres ginecológicos más agresivos debido a su alta invasión y resistencia a la quimioterapia. No solo tiene una alta tasa de incidencia, sino que también encabeza la lista de tasas de mortalidad. Sus síntomas iniciales sutiles dificultan el diagnóstico posterior, retrasando significativamente el tratamiento oportuno para los pacientes. Una vez que el cáncer de ovario alcanza una etapa avanzada, la complejidad y dificultad del tratamiento aumentan sustancialmente, afectando las tasas de supervivencia de los pacientes. Por lo tanto, es crucial que tanto los profesionales médicos como los pacientes permanezcan muy vigilantes sobre los primeros signos de cáncer de ovario para garantizar una intervención oportuna. En los últimos años, la investigación de predicción del cáncer de ovario ha avanzado, lo que permite analizar la probabilidad y el tipo de cáncer en función de los datos genéticos de los pacientes. Con el rápido desarrollo del aprendizaje automático, han surgido numerosos modelos de predicción de clasificación eficientes. Estas nuevas tecnologías ofrecen oportunidades significativas y potencial para desarrollar métodos de predicción diagnóstica del cáncer de ovario. Sin embargo, los enfoques tradicionales a menudo luchan por lograr una precisión de clasificación satisfactoria en conjuntos de datos genéticos de alta dimensionalidad con tamaños de muestra pequeños. Esta investigación ofrece un modelo de predicción que utiliza datos genómicos para mejorar la tasa de diagnóstico temprano del cáncer de ovario, incorporando selección de características, aumento de datos a través de redes generativas adversarias condicionales (AC-GAN) y un clasificador de aumento extremo (XGBoost). Primero, podemos simplificar el conjunto de datos genéticos original a través de métodos de selección de características, eliminando variables irrelevantes y ruido, mejorando así la precisión predictiva del modelo. Tras la reducción de la dimensionalidad, AC-GAN enriquece los datos, produciendo muestras genéticas más realistas para mejorar la capacidad de generalización del modelo. Finalmente, se aplica el clasificador XGBoost para clasificar los datos aumentados, logrando predicciones eficientes para el cáncer de ovario. Estos hallazgos de investigación demuestran firmemente que el método de diagnóstico propuesto en este documento tiene una ventaja significativa en el diagnóstico predictivo del cáncer de ovario, con una precisión del 99.01% que supera las tecnologías actuales en uso. Además, el algoritmo identifica doce genes altamente relevantes para el cáncer de ovario, proporcionando información valiosa para los médicos durante el diagnóstico.