Fdr-bd: una herramienta de recomendación de reducción de datos rápida para problemas de clasificación de grandes datos tabulares
Autores: Basgall, María José; Naiouf, Marcelo; Fernández, Alberto
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Fdr-bd: una herramienta de recomendación de reducción de datos rápida para problemas de clasificación de grandes datos tabulares
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Enfoque de condensación de datos metodológicos
Conjuntos de datos grandes tabulares
Selección de características
Conglomerados densos
Reducción de muestreo uniforme
Calidad predictiva
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
En este documento se presenta un enfoque de condensación de datos metodológicos para reducir conjuntos de datos grandes en problemas de clasificación, llamado FDR-BD. La clave de nuestra propuesta es analizar los datos de manera dual (vertical y horizontal), para proporcionar una combinación inteligente entre la selección de características para generar grupos densos de datos y la reducción de muestreo uniforme para mantener solo unas pocas muestras representativas de cada área del problema. Su principal ventaja es permitir que la calidad predictiva del modelo se mantenga en un rango determinado por el umbral del usuario. Su robustez se basa en un proceso de hiperparametrización, en el cual todos los datos son considerados siguiendo un procedimiento de k-fold. Otra capacidad significativa es ser rápido y escalable mediante el uso de operaciones paralelas totalmente optimizadas proporcionadas por Apache Spark. Se realiza un estudio experimental extenso sobre 25 grandes conjuntos de datos con diferentes características. En la mayoría de los casos, los porcentajes de reducción obtenidos están por encima del 95%, superando así a soluciones de vanguardia como FCNN_MR que apenas alcanzan el 70%. El resultado más prometedor es mantener la representatividad de la información de los datos originales, con valores de predicción de calidad alrededor del 1% de la línea base.
Descripción
En este documento se presenta un enfoque de condensación de datos metodológicos para reducir conjuntos de datos grandes en problemas de clasificación, llamado FDR-BD. La clave de nuestra propuesta es analizar los datos de manera dual (vertical y horizontal), para proporcionar una combinación inteligente entre la selección de características para generar grupos densos de datos y la reducción de muestreo uniforme para mantener solo unas pocas muestras representativas de cada área del problema. Su principal ventaja es permitir que la calidad predictiva del modelo se mantenga en un rango determinado por el umbral del usuario. Su robustez se basa en un proceso de hiperparametrización, en el cual todos los datos son considerados siguiendo un procedimiento de k-fold. Otra capacidad significativa es ser rápido y escalable mediante el uso de operaciones paralelas totalmente optimizadas proporcionadas por Apache Spark. Se realiza un estudio experimental extenso sobre 25 grandes conjuntos de datos con diferentes características. En la mayoría de los casos, los porcentajes de reducción obtenidos están por encima del 95%, superando así a soluciones de vanguardia como FCNN_MR que apenas alcanzan el 70%. El resultado más prometedor es mantener la representatividad de la información de los datos originales, con valores de predicción de calidad alrededor del 1% de la línea base.