Un algoritmo aleatorio basado en PRIM para clasificación interpretable y descubrimiento avanzado de subgrupos
Autores: Nassih, Rym; Berrado, Abdelaziz
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un algoritmo aleatorio basado en PRIM para clasificación interpretable y descubrimiento avanzado de subgrupos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Algoritmos de aprendizaje automático
Alta precisión
Modelos tradicionales
Conjuntos de datos grandes
Método de inducción de reglas de pacientes (PRIM)
Algoritmo de descubrimiento de subgrupos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
Los algoritmos de aprendizaje automático han avanzado significativamente, logrando alta precisión en muchas aplicaciones. Sin embargo, los modelos tradicionales a menudo necesitan conjuntos de datos grandes, ya que típicamente eliminan porciones sustanciales de los datos en cada iteración, complicando el desarrollo de un clasificador sin datos suficientes. En campos críticos como la salud, hay una creciente necesidad de identificar y analizar subgrupos pequeños pero significativos dentro de los datos. Para abordar estos desafíos, presentamos un clasificador novedoso basado en el método de inducción de reglas del paciente (PRIM), un algoritmo de descubrimiento de subgrupos. PRIM encuentra reglas eliminando datos mínimos en cada iteración, lo que permite descubrir regiones altamente relevantes. A diferencia de los clasificadores tradicionales, PRIM requiere que los expertos seleccionen manualmente los espacios de entrada. Nuestra innovación transforma PRIM en un clasificador interpretable comenzando con selecciones de espacios de entrada aleatorios para cada clase, luego podando reglas usando metarreglas y finalmente seleccionando reglas definitivas para el clasificador. Probado contra algoritmos populares como random forest, regresión logística y XG-Boost, nuestro clasificador basado en PRIM aleatorio (R-PRIM-Cl) demuestra una robustez comparable, una interpretabilidad superior y la capacidad de manejar variables categóricas y numéricas. Descubre más reglas en ciertos conjuntos de datos, lo que lo hace especialmente valioso en campos donde entender el proceso de toma de decisiones del modelo es tan importante como su precisión predictiva.
Descripción
Los algoritmos de aprendizaje automático han avanzado significativamente, logrando alta precisión en muchas aplicaciones. Sin embargo, los modelos tradicionales a menudo necesitan conjuntos de datos grandes, ya que típicamente eliminan porciones sustanciales de los datos en cada iteración, complicando el desarrollo de un clasificador sin datos suficientes. En campos críticos como la salud, hay una creciente necesidad de identificar y analizar subgrupos pequeños pero significativos dentro de los datos. Para abordar estos desafíos, presentamos un clasificador novedoso basado en el método de inducción de reglas del paciente (PRIM), un algoritmo de descubrimiento de subgrupos. PRIM encuentra reglas eliminando datos mínimos en cada iteración, lo que permite descubrir regiones altamente relevantes. A diferencia de los clasificadores tradicionales, PRIM requiere que los expertos seleccionen manualmente los espacios de entrada. Nuestra innovación transforma PRIM en un clasificador interpretable comenzando con selecciones de espacios de entrada aleatorios para cada clase, luego podando reglas usando metarreglas y finalmente seleccionando reglas definitivas para el clasificador. Probado contra algoritmos populares como random forest, regresión logística y XG-Boost, nuestro clasificador basado en PRIM aleatorio (R-PRIM-Cl) demuestra una robustez comparable, una interpretabilidad superior y la capacidad de manejar variables categóricas y numéricas. Descubre más reglas en ciertos conjuntos de datos, lo que lo hace especialmente valioso en campos donde entender el proceso de toma de decisiones del modelo es tan importante como su precisión predictiva.