Submuestreo y agregación: una solución al problema de escalabilidad en la predicción basada en distancias para datos de tipo mixto
Autores: Baíllo, Amparo; Grané, Aurea
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Submuestreo y agregación: una solución al problema de escalabilidad en la predicción basada en distancias para datos de tipo mixto
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Modelo lineal basado en distancia
Costo computacional
Técnicas de regresión de conjunto
Submuestreo
Técnicas de agregación
Problema de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
El modelo lineal basado en distancias (DB-LM) extiende la regresión lineal clásica al marco de predictores de tipos mixtos o cuando la única información disponible es una matriz de distancias entre regresores (como sucede a veces con grandes conjuntos de datos). El principal inconveniente de estos métodos DB es su costo computacional, particularmente debido a la eigendecomposición de la matriz de Gram. En este contexto, las técnicas de regresión de conjunto proporcionan una alternativa útil para ajustar el modelo a toda la muestra. Este trabajo analiza el rendimiento de tres técnicas de submuestreo y agregación en la regresión DB en dos conjuntos de datos grandes y reales específicos. También analizamos, a través de simulaciones, el rendimiento del bagging y la regresión logística DB en el problema de clasificación con características de tipos mixtos y tamaños de muestra grandes.
Descripción
El modelo lineal basado en distancias (DB-LM) extiende la regresión lineal clásica al marco de predictores de tipos mixtos o cuando la única información disponible es una matriz de distancias entre regresores (como sucede a veces con grandes conjuntos de datos). El principal inconveniente de estos métodos DB es su costo computacional, particularmente debido a la eigendecomposición de la matriz de Gram. En este contexto, las técnicas de regresión de conjunto proporcionan una alternativa útil para ajustar el modelo a toda la muestra. Este trabajo analiza el rendimiento de tres técnicas de submuestreo y agregación en la regresión DB en dos conjuntos de datos grandes y reales específicos. También analizamos, a través de simulaciones, el rendimiento del bagging y la regresión logística DB en el problema de clasificación con características de tipos mixtos y tamaños de muestra grandes.