Clasificación de cáncer de mama utilizando un algoritmo de caza de baches adaptado
Autores: Nassih, Rym; Berrado, Abdelaziz
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Clasificación de cáncer de mama utilizando un algoritmo de caza de baches adaptado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Minería de datos
PRIM
Clasificación de cáncer de mama
Marco de trabajo
Algoritmos
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
El Método de Inducción de Reglas del Paciente es una técnica de minería de datos utilizada para identificar patrones en conjuntos de datos, centrándose particularmente en descubrir regiones del espacio de entrada elegido donde la variable de respuesta es inusualmente alta o baja. Se encuentra en el campo del descubrimiento de subgrupos, donde encontrar grupos pequeños es más relevante para la explicabilidad de los resultados, aunque no es una técnica de clasificación en sí misma. En este documento, presentamos un nuevo marco para la clasificación del cáncer de mama basado en el PRIM. Este nuevo método implica, primero, la elección aleatoria de diferentes espacios de entrada para cada etiqueta de clase; segundo, la organización y poda de las reglas utilizando metarreglas; y finalmente, también incluye la propuesta de una forma de manejar la superposición de clases y, por lo tanto, definir el clasificador final. El marco se prueba en cinco conjuntos de datos reales de cáncer de mama en comparación con tres algoritmos a menudo utilizados para la clasificación del cáncer de mama: XG Boost, Regresión Logística y Random Forest. En los cuatro métricos y conjuntos de datos, tanto nuestro marco basado en PRIM como Random Forest demuestran un rendimiento robusto, con nuestro marco mostrando una precisión y recall notable. XGBoost mantiene sólidos puntajes F1 en general, lo que indica una precisión y recall equilibrados. Por otro lado, la Regresión Logística, aunque competente, generalmente tiene un rendimiento inferior en comparación con los otros algoritmos, especialmente en términos de precisión y recall, logrando una precisión del 94,1% frente al 96,8% y un recall del 85,4% frente al 94,2% para el marco basado en PRIM en el conjunto de datos de Wisconsin.
Descripción
El Método de Inducción de Reglas del Paciente es una técnica de minería de datos utilizada para identificar patrones en conjuntos de datos, centrándose particularmente en descubrir regiones del espacio de entrada elegido donde la variable de respuesta es inusualmente alta o baja. Se encuentra en el campo del descubrimiento de subgrupos, donde encontrar grupos pequeños es más relevante para la explicabilidad de los resultados, aunque no es una técnica de clasificación en sí misma. En este documento, presentamos un nuevo marco para la clasificación del cáncer de mama basado en el PRIM. Este nuevo método implica, primero, la elección aleatoria de diferentes espacios de entrada para cada etiqueta de clase; segundo, la organización y poda de las reglas utilizando metarreglas; y finalmente, también incluye la propuesta de una forma de manejar la superposición de clases y, por lo tanto, definir el clasificador final. El marco se prueba en cinco conjuntos de datos reales de cáncer de mama en comparación con tres algoritmos a menudo utilizados para la clasificación del cáncer de mama: XG Boost, Regresión Logística y Random Forest. En los cuatro métricos y conjuntos de datos, tanto nuestro marco basado en PRIM como Random Forest demuestran un rendimiento robusto, con nuestro marco mostrando una precisión y recall notable. XGBoost mantiene sólidos puntajes F1 en general, lo que indica una precisión y recall equilibrados. Por otro lado, la Regresión Logística, aunque competente, generalmente tiene un rendimiento inferior en comparación con los otros algoritmos, especialmente en términos de precisión y recall, logrando una precisión del 94,1% frente al 96,8% y un recall del 85,4% frente al 94,2% para el marco basado en PRIM en el conjunto de datos de Wisconsin.