Fdr-bd: una herramienta de recomendación de reducción de datos rápida para problemas de clasificación de grandes datos tabulares

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Fdr-bd: una herramienta de recomendación de reducción de datos rápida para problemas de clasificación de grandes datos tabulares

Autores: Basgall, María José; Naiouf, Marcelo; Fernández, Alberto

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Fdr-bd: una herramienta de recomendación de reducción de datos rápida para problemas de clasificación de grandes datos tabulares

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Enfoque de condensación de datos metodológicos

Conjuntos de datos grandes tabulares

Selección de características

Conglomerados densos

Reducción de muestreo uniforme

Calidad predictiva

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

En este documento se presenta un enfoque de condensación de datos metodológicos para reducir conjuntos de datos grandes en problemas de clasificación, llamado FDR-BD. La clave de nuestra propuesta es analizar los datos de manera dual (vertical y horizontal), para proporcionar una combinación inteligente entre la selección de características para generar grupos densos de datos y la reducción de muestreo uniforme para mantener solo unas pocas muestras representativas de cada área del problema. Su principal ventaja es permitir que la calidad predictiva del modelo se mantenga en un rango determinado por el umbral del usuario. Su robustez se basa en un proceso de hiperparametrización, en el cual todos los datos son considerados siguiendo un procedimiento de k-fold. Otra capacidad significativa es ser rápido y escalable mediante el uso de operaciones paralelas totalmente optimizadas proporcionadas por Apache Spark. Se realiza un estudio experimental extenso sobre 25 grandes conjuntos de datos con diferentes características. En la mayoría de los casos, los porcentajes de reducción obtenidos están por encima del 95%, superando así a soluciones de vanguardia como FCNN_MR que apenas alcanzan el 70%. El resultado más prometedor es mantener la representatividad de la información de los datos originales, con valores de predicción de calidad alrededor del 1% de la línea base.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro