Un método de aprendizaje automático para la clasificación del cáncer cervical
Autores: Tanimu, Jesse Jeremiah; Hamada, Mohamed; Hassan, Mohammed; Kakudi, Habeebah; Abiodun, John Oladunjoye
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un método de aprendizaje automático para la clasificación del cáncer cervical
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Cáncer cervical
Factores de riesgo
Modelo predictivo
árbol de decisión
Selección de características
SMOTETomek
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
El cáncer de cuello uterino es una de las principales causas de mortalidad prematura entre las mujeres en todo el mundo y más del 85% de estas muertes se producen en países en desarrollo. Hay varios factores de riesgo asociados con el cáncer de cuello uterino. En este trabajo, desarrollamos un modelo predictivo para predecir el resultado de las pacientes con cáncer de cuello uterino, dados los patrones de riesgo de los registros médicos individuales y la evaluación preliminar. Este trabajo presenta un algoritmo de clasificación de árbol de decisión (DT) para analizar los factores de riesgo del cáncer de cuello uterino. La eliminación recursiva de características (RFE) y las técnicas de selección de características de contracción y selección absoluta mínima (LASSO) fueron completamente exploradas para determinar los atributos más importantes para la predicción del cáncer de cuello uterino. El conjunto de datos utilizado aquí contiene valores faltantes y está altamente desequilibrado. Por lo tanto, se empleó una combinación de técnicas de sub y sobremuestreo llamada SMOTETomek. Se realizó un análisis comparativo del modelo propuesto para mostrar la efectividad de la selección de características y el desequilibrio de clases basado en la precisión, sensibilidad y especificidad del clasificador. El DT con las características seleccionadas de RFE y SMOTETomek tiene mejores resultados con una precisión del 98.72% y una sensibilidad del 100%. Se muestra que el clasificador DT tiene un mejor rendimiento en el manejo de problemas de clasificación cuando se reducen las características y se aborda el problema del alto desequilibrio de clases.
Descripción
El cáncer de cuello uterino es una de las principales causas de mortalidad prematura entre las mujeres en todo el mundo y más del 85% de estas muertes se producen en países en desarrollo. Hay varios factores de riesgo asociados con el cáncer de cuello uterino. En este trabajo, desarrollamos un modelo predictivo para predecir el resultado de las pacientes con cáncer de cuello uterino, dados los patrones de riesgo de los registros médicos individuales y la evaluación preliminar. Este trabajo presenta un algoritmo de clasificación de árbol de decisión (DT) para analizar los factores de riesgo del cáncer de cuello uterino. La eliminación recursiva de características (RFE) y las técnicas de selección de características de contracción y selección absoluta mínima (LASSO) fueron completamente exploradas para determinar los atributos más importantes para la predicción del cáncer de cuello uterino. El conjunto de datos utilizado aquí contiene valores faltantes y está altamente desequilibrado. Por lo tanto, se empleó una combinación de técnicas de sub y sobremuestreo llamada SMOTETomek. Se realizó un análisis comparativo del modelo propuesto para mostrar la efectividad de la selección de características y el desequilibrio de clases basado en la precisión, sensibilidad y especificidad del clasificador. El DT con las características seleccionadas de RFE y SMOTETomek tiene mejores resultados con una precisión del 98.72% y una sensibilidad del 100%. Se muestra que el clasificador DT tiene un mejor rendimiento en el manejo de problemas de clasificación cuando se reducen las características y se aborda el problema del alto desequilibrio de clases.