Distribuido de arranque inferencia simultánea para regresión de cuantiles de alta dimensionalidad
Autores: Zhou, Xingcai; Jing, Zhaoyang; Huang, Chao
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Distribuido de arranque inferencia simultánea para regresión de cuantiles de alta dimensionalidad
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos masivos
Distribuido
Modelo de regresión de cuantiles de alta dimensionalidad
Eficiente en comunicación
Marco de verosimilitud sustituta
Procedimiento ADMM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Los datos masivos modernos con un tamaño de muestra enorme y una dimensionalidad tremenda suelen ser imposibles de procesar con una sola máquina. Por lo general, se almacenan y procesan de manera distribuida. En este documento, proponemos una inferencia simultánea de arranque distribuida para un modelo de regresión cuantil de alta dimensionalidad utilizando datos masivos. Mientras tanto, se desarrolla un algoritmo de aprendizaje distribuido eficiente en comunicación (CE) a través del marco de verosimilitud sustituta CE y el procedimiento ADMM, que puede manejar la falta de suavidad de la pérdida de regresión cuantil y la penalización Lasso. Teóricamente demostramos la convergencia del algoritmo y establecemos un límite inferior en el número de rondas de comunicación que garantizan precisión y eficiencia estadística. La validez y eficiencia del arranque distribuido se corroboran mediante un extenso estudio de simulación.
Descripción
Los datos masivos modernos con un tamaño de muestra enorme y una dimensionalidad tremenda suelen ser imposibles de procesar con una sola máquina. Por lo general, se almacenan y procesan de manera distribuida. En este documento, proponemos una inferencia simultánea de arranque distribuida para un modelo de regresión cuantil de alta dimensionalidad utilizando datos masivos. Mientras tanto, se desarrolla un algoritmo de aprendizaje distribuido eficiente en comunicación (CE) a través del marco de verosimilitud sustituta CE y el procedimiento ADMM, que puede manejar la falta de suavidad de la pérdida de regresión cuantil y la penalización Lasso. Teóricamente demostramos la convergencia del algoritmo y establecemos un límite inferior en el número de rondas de comunicación que garantizan precisión y eficiencia estadística. La validez y eficiencia del arranque distribuido se corroboran mediante un extenso estudio de simulación.