logo móvil
Contáctanos

Una Comparación de Rendimiento Extensa entre Algoritmos de Preprocesamiento de Reducción de Características y Selección de Características en Datos Amplios Desbalanceados

Autores: Ramos-Pérez, Ismael; Barbero-Aparicio, José Antonio; Canepa-Oneto, Antonio; Arnaiz-González, Álvar; Maudes-Raedo, Jesús

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Una Comparación de Rendimiento Extensa entre Algoritmos de Preprocesamiento de Reducción de Características y Selección de Características en Datos Amplios Desbalanceados


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Técnicas de preprocesamiento
Alta dimensionalidad
Reducción de características
Selección de características
Remuestreo
Datos amplios

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las técnicas de preprocesamiento más comunes utilizadas para tratar conjuntos de datos con alta dimensionalidad y un bajo número de instancias, o datos amplios, son la reducción de características (FR), la selección de características (FS) y el muestreo. Este estudio explora el uso de técnicas de FR y muestreo, ampliando las comparaciones limitadas entre los métodos de FR y FS de filtro en la literatura existente, especialmente en el contexto de datos amplios. Comparamos los resultados óptimos de un estudio previo exhaustivo de FS con nuevos experimentos realizados utilizando métodos de FR. Se describen en detalle dos desafíos específicos asociados con el uso de FR: encontrar métodos de FR que sean compatibles con datos amplios y la necesidad de un estimador de reducción de enfoques no lineales para procesar datos fuera de muestra. El estudio experimental compara 17 técnicas, incluyendo enfoques supervisados, no supervisados, lineales y no lineales, utilizando 7 estrategias de muestreo y 5 clasificadores. Los resultados demuestran qué configuraciones son óptimas, según su rendimiento y tiempo de cálculo. Además, se muestra que la mejor configuración, a saber, k Vecinos Más Cercanos (KNN) + el Reductor de Características del Criterio de Margen Máximo (MMC) sin muestreo, supera a los algoritmos de última generación.

Otros recursos que podrían interesarte

Temas Virtualpro