Una Comparación de Rendimiento Extensa entre Algoritmos de Preprocesamiento de Reducción de Características y Selección de Características en Datos Amplios Desbalanceados
Autores: Ramos-Pérez, Ismael; Barbero-Aparicio, José Antonio; Canepa-Oneto, Antonio; Arnaiz-González, Álvar; Maudes-Raedo, Jesús
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Una Comparación de Rendimiento Extensa entre Algoritmos de Preprocesamiento de Reducción de Características y Selección de Características en Datos Amplios Desbalanceados
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Técnicas de preprocesamiento
Alta dimensionalidad
Reducción de características
Selección de características
Remuestreo
Datos amplios
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las técnicas de preprocesamiento más comunes utilizadas para tratar conjuntos de datos con alta dimensionalidad y un bajo número de instancias, o datos amplios, son la reducción de características (FR), la selección de características (FS) y el muestreo. Este estudio explora el uso de técnicas de FR y muestreo, ampliando las comparaciones limitadas entre los métodos de FR y FS de filtro en la literatura existente, especialmente en el contexto de datos amplios. Comparamos los resultados óptimos de un estudio previo exhaustivo de FS con nuevos experimentos realizados utilizando métodos de FR. Se describen en detalle dos desafíos específicos asociados con el uso de FR: encontrar métodos de FR que sean compatibles con datos amplios y la necesidad de un estimador de reducción de enfoques no lineales para procesar datos fuera de muestra. El estudio experimental compara 17 técnicas, incluyendo enfoques supervisados, no supervisados, lineales y no lineales, utilizando 7 estrategias de muestreo y 5 clasificadores. Los resultados demuestran qué configuraciones son óptimas, según su rendimiento y tiempo de cálculo. Además, se muestra que la mejor configuración, a saber, k Vecinos Más Cercanos (KNN) + el Reductor de Características del Criterio de Margen Máximo (MMC) sin muestreo, supera a los algoritmos de última generación.
Descripción
Las técnicas de preprocesamiento más comunes utilizadas para tratar conjuntos de datos con alta dimensionalidad y un bajo número de instancias, o datos amplios, son la reducción de características (FR), la selección de características (FS) y el muestreo. Este estudio explora el uso de técnicas de FR y muestreo, ampliando las comparaciones limitadas entre los métodos de FR y FS de filtro en la literatura existente, especialmente en el contexto de datos amplios. Comparamos los resultados óptimos de un estudio previo exhaustivo de FS con nuevos experimentos realizados utilizando métodos de FR. Se describen en detalle dos desafíos específicos asociados con el uso de FR: encontrar métodos de FR que sean compatibles con datos amplios y la necesidad de un estimador de reducción de enfoques no lineales para procesar datos fuera de muestra. El estudio experimental compara 17 técnicas, incluyendo enfoques supervisados, no supervisados, lineales y no lineales, utilizando 7 estrategias de muestreo y 5 clasificadores. Los resultados demuestran qué configuraciones son óptimas, según su rendimiento y tiempo de cálculo. Además, se muestra que la mejor configuración, a saber, k Vecinos Más Cercanos (KNN) + el Reductor de Características del Criterio de Margen Máximo (MMC) sin muestreo, supera a los algoritmos de última generación.