logo móvil
Contáctanos

Fdr-bd: una herramienta de recomendación de reducción de datos rápida para problemas de clasificación de grandes datos tabulares

Autores: Basgall, María José; Naiouf, Marcelo; Fernández, Alberto

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Fdr-bd: una herramienta de recomendación de reducción de datos rápida para problemas de clasificación de grandes datos tabulares


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Enfoque de condensación de datos metodológicos
Conjuntos de datos grandes tabulares
Selección de características
Conglomerados densos
Reducción de muestreo uniforme
Calidad predictiva

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
En este documento se presenta un enfoque de condensación de datos metodológicos para reducir conjuntos de datos grandes en problemas de clasificación, llamado FDR-BD. La clave de nuestra propuesta es analizar los datos de manera dual (vertical y horizontal), para proporcionar una combinación inteligente entre la selección de características para generar grupos densos de datos y la reducción de muestreo uniforme para mantener solo unas pocas muestras representativas de cada área del problema. Su principal ventaja es permitir que la calidad predictiva del modelo se mantenga en un rango determinado por el umbral del usuario. Su robustez se basa en un proceso de hiperparametrización, en el cual todos los datos son considerados siguiendo un procedimiento de k-fold. Otra capacidad significativa es ser rápido y escalable mediante el uso de operaciones paralelas totalmente optimizadas proporcionadas por Apache Spark. Se realiza un estudio experimental extenso sobre 25 grandes conjuntos de datos con diferentes características. En la mayoría de los casos, los porcentajes de reducción obtenidos están por encima del 95%, superando así a soluciones de vanguardia como FCNN_MR que apenas alcanzan el 70%. El resultado más prometedor es mantener la representatividad de la información de los datos originales, con valores de predicción de calidad alrededor del 1% de la línea base.

Otros recursos que podrían interesarte

Temas Virtualpro