Mapas cognitivos difusos distribuidos para la selección de características en la clasificación de grandes datos
Autores: Haritha, K.; Judy, M. V.; Papageorgiou, Konstantinos; Georgiannis, Vassilis C.; Papageorgiou, Elpiniki
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Mapas cognitivos difusos distribuidos para la selección de características en la clasificación de grandes datos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Características
Conjunto de datos
Aprendizaje automático
Modelo
Selección de características
Mapas cognitivos difusos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Las características de un conjunto de datos juegan un papel importante en la construcción de un modelo de aprendizaje automático. Dado que los conjuntos de datos grandes a menudo tienen una gran cantidad de características, pueden contener características que son menos relevantes para la tarea de aprendizaje automático, lo que hace que el proceso sea más lento y complejo. Para facilitar el aprendizaje, siempre se recomienda eliminar las características menos significativas. El proceso de eliminación de las características irrelevantes y encontrar un conjunto óptimo de características implica buscar exhaustivamente en el conjunto de datos y considerar cada subconjunto en los datos. En esta investigación, presentamos un método de envoltura basado en el aprendizaje de mapas cognitivos difusos distribuidos para la selección de características que es capaz de extraer aquellas características de un conjunto de datos que desempeñan el papel más significativo en la toma de decisiones. Los mapas cognitivos difusos (FCMs) representan una técnica de computación híbrida que combina elementos de lógica difusa y mapas cognitivos. Utilizando los conjuntos de datos distribuidos resilientes (RDDs) de Spark, el modelo propuesto puede funcionar de manera efectiva de forma distribuida para un procesamiento rápido en memoria junto con cálculos iterativos efectivos. Según los resultados experimentales, cuando se aplica el modelo propuesto a una tarea de clasificación, las características seleccionadas por el modelo ayudan a acelerar el proceso de clasificación. La selección de características relevantes utilizando el algoritmo propuesto está a la par con los algoritmos de selección de características existentes. En conjunto con un clasificador de bosque aleatorio, el modelo propuesto produjo una precisión promedio superior al 90%, en comparación con el 85.6% de precisión cuando no se adoptó ninguna estrategia de selección de características.
Descripción
Las características de un conjunto de datos juegan un papel importante en la construcción de un modelo de aprendizaje automático. Dado que los conjuntos de datos grandes a menudo tienen una gran cantidad de características, pueden contener características que son menos relevantes para la tarea de aprendizaje automático, lo que hace que el proceso sea más lento y complejo. Para facilitar el aprendizaje, siempre se recomienda eliminar las características menos significativas. El proceso de eliminación de las características irrelevantes y encontrar un conjunto óptimo de características implica buscar exhaustivamente en el conjunto de datos y considerar cada subconjunto en los datos. En esta investigación, presentamos un método de envoltura basado en el aprendizaje de mapas cognitivos difusos distribuidos para la selección de características que es capaz de extraer aquellas características de un conjunto de datos que desempeñan el papel más significativo en la toma de decisiones. Los mapas cognitivos difusos (FCMs) representan una técnica de computación híbrida que combina elementos de lógica difusa y mapas cognitivos. Utilizando los conjuntos de datos distribuidos resilientes (RDDs) de Spark, el modelo propuesto puede funcionar de manera efectiva de forma distribuida para un procesamiento rápido en memoria junto con cálculos iterativos efectivos. Según los resultados experimentales, cuando se aplica el modelo propuesto a una tarea de clasificación, las características seleccionadas por el modelo ayudan a acelerar el proceso de clasificación. La selección de características relevantes utilizando el algoritmo propuesto está a la par con los algoritmos de selección de características existentes. En conjunto con un clasificador de bosque aleatorio, el modelo propuesto produjo una precisión promedio superior al 90%, en comparación con el 85.6% de precisión cuando no se adoptó ninguna estrategia de selección de características.