PCMINN: Un método de selección de características basado en la información mutua condicional acelerado por GPU
Autores: Papaioannou, Nikolaos; Myllis, Georgios; Tsimpiris, Alkiviadis; Aggelopoulos, Stamatis; Vrana, Vasiliki
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
PCMINN: Un método de selección de características basado en la información mutua condicional acelerado por GPU
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Selección de características
Información mutua condicional de vecino más cercano
Algoritmo CMINN
CMINN paralelizado
GPUs
Conjuntos de datos de alta dimensión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En la selección de características, es crucial identificar características que no solo sean relevantes para la variable objetivo, sino también no redundantes. La Información Mutua Condicional del Vecino Más Cercano (CMINN) es un algoritmo desarrollado para abordar este desafío utilizando la Información Mutua Condicional (CMI) para evaluar la relevancia de características individuales para la variable objetivo, al tiempo que identifica la redundancia entre características similares. Aunque es efectivo, el algoritmo CMINN original puede ser computacionalmente intensivo, particularmente con conjuntos de datos grandes y de alta dimensión. En este estudio, extendemos el algoritmo CMINN paralelizándolo para su ejecución en Unidades de Procesamiento Gráfico (GPUs), mejorando significativamente su eficiencia y escalabilidad para conjuntos de datos de alta dimensión. El CMINN paralelizado (PCMINN) aprovecha el masivo paralelismo de las GPUs modernas para manejar la complejidad computacional inherente a la selección secuencial de características, especialmente al tratar con datos a gran escala. Para evaluar el rendimiento de PCMINN en varios escenarios, realizamos tanto un extenso estudio de simulación utilizando conjuntos de datos con efectos de características combinadas como un estudio de caso utilizando datos financieros. Nuestros resultados muestran que PCMINN no solo mantiene la efectividad del CMINN original en la selección del subconjunto óptimo de características, sino que también logra tiempos de ejecución más rápidos. El enfoque paralelizado permite el procesamiento eficiente de grandes conjuntos de datos, lo que hace de PCMINN una herramienta valiosa para tareas de selección de características de alta dimensión. También proporcionamos un paquete que incluye dos implementaciones en Python para apoyar la integración en flujos de trabajo de investigación futuros: una versión secuencial de CMINN y una versión paralela basada en GPU de PCMINN.
Descripción
En la selección de características, es crucial identificar características que no solo sean relevantes para la variable objetivo, sino también no redundantes. La Información Mutua Condicional del Vecino Más Cercano (CMINN) es un algoritmo desarrollado para abordar este desafío utilizando la Información Mutua Condicional (CMI) para evaluar la relevancia de características individuales para la variable objetivo, al tiempo que identifica la redundancia entre características similares. Aunque es efectivo, el algoritmo CMINN original puede ser computacionalmente intensivo, particularmente con conjuntos de datos grandes y de alta dimensión. En este estudio, extendemos el algoritmo CMINN paralelizándolo para su ejecución en Unidades de Procesamiento Gráfico (GPUs), mejorando significativamente su eficiencia y escalabilidad para conjuntos de datos de alta dimensión. El CMINN paralelizado (PCMINN) aprovecha el masivo paralelismo de las GPUs modernas para manejar la complejidad computacional inherente a la selección secuencial de características, especialmente al tratar con datos a gran escala. Para evaluar el rendimiento de PCMINN en varios escenarios, realizamos tanto un extenso estudio de simulación utilizando conjuntos de datos con efectos de características combinadas como un estudio de caso utilizando datos financieros. Nuestros resultados muestran que PCMINN no solo mantiene la efectividad del CMINN original en la selección del subconjunto óptimo de características, sino que también logra tiempos de ejecución más rápidos. El enfoque paralelizado permite el procesamiento eficiente de grandes conjuntos de datos, lo que hace de PCMINN una herramienta valiosa para tareas de selección de características de alta dimensión. También proporcionamos un paquete que incluye dos implementaciones en Python para apoyar la integración en flujos de trabajo de investigación futuros: una versión secuencial de CMINN y una versión paralela basada en GPU de PCMINN.