Eficiente estimación y validación de estimadores de contracción en análisis de grandes datos
Autores: du Plessis, Salomi; Arashi, Mohammad; Maribe, Gaonyalelwe; Millard, Salomon M.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Eficiente estimación y validación de estimadores de contracción en análisis de grandes datos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Estimadores de contracción
Multicolinealidad
Modelos de regresión lineal
Big data
Algoritmo
Estimación eficiente del modelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Los estimadores de contracción se utilizan a menudo para mitigar las consecuencias de la multicolinealidad en modelos de regresión lineal. A pesar de la facilidad con la que estas técnicas pueden aplicarse a conjuntos de datos pequeños o de tamaño moderado, enfrentan desafíos significativos en el dominio de big data. Algunos de estos desafíos son que el volumen de datos a menudo excede la capacidad de almacenamiento de un solo ordenador y que el tiempo requerido para obtener resultados se vuelve inviable debido a la carga computacional de un alto volumen de datos. Proponemos un algoritmo para la estimación eficiente del modelo y la validación de varios estimadores de contracción bien conocidos que se utilizarán en escenarios donde el volumen de datos es grande. Nuestro algoritmo propuesto utiliza estadísticas suficientes que se pueden calcular y actualizar a nivel de fila, minimizando así el acceso a todo el conjunto de datos. Un estudio de simulación, así como una aplicación en un conjunto de datos del mundo real, ilustra la eficiencia del enfoque propuesto.
Descripción
Los estimadores de contracción se utilizan a menudo para mitigar las consecuencias de la multicolinealidad en modelos de regresión lineal. A pesar de la facilidad con la que estas técnicas pueden aplicarse a conjuntos de datos pequeños o de tamaño moderado, enfrentan desafíos significativos en el dominio de big data. Algunos de estos desafíos son que el volumen de datos a menudo excede la capacidad de almacenamiento de un solo ordenador y que el tiempo requerido para obtener resultados se vuelve inviable debido a la carga computacional de un alto volumen de datos. Proponemos un algoritmo para la estimación eficiente del modelo y la validación de varios estimadores de contracción bien conocidos que se utilizarán en escenarios donde el volumen de datos es grande. Nuestro algoritmo propuesto utiliza estadísticas suficientes que se pueden calcular y actualizar a nivel de fila, minimizando así el acceso a todo el conjunto de datos. Un estudio de simulación, así como una aplicación en un conjunto de datos del mundo real, ilustra la eficiencia del enfoque propuesto.