Robusto proceso de selección de variables a través de regresión cuantílica compuesta LASSO bayesiana con verosimilitud empírica: un enfoque de muestreo híbrido
Autores: Nan, Ruisi; Wang, Jingwei; Li, Hanfang; Luo, Youxi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Robusto proceso de selección de variables a través de regresión cuantílica compuesta LASSO bayesiana con verosimilitud empírica: un enfoque de muestreo híbrido
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Regresión cuantil compuesta
Análisis de datos de alta dimensión
Contaminación por valores atípicos
Técnicas de regresión penalizadas
Marco de selección de variables
Penalización de LASSO bayesiano
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Desde la llegada de la regresión cuantílica compuesta (CQR), su robustez inherente la ha establecido como una metodología fundamental para el análisis de datos de alta dimensionalidad. La contaminación de valores atípicos de alta dimensionalidad se refiere a escenarios de datos donde el número de dimensiones observadas () es mucho mayor que el tamaño de la muestra () y hay valores atípicos extremos en las variables de respuesta o covariables (por ejemplo, / > 0.1). Sin embargo, las técnicas tradicionales de regresión penalizada muestran una notable vulnerabilidad a los valores atípicos durante la selección de variables de alta dimensionalidad, lo que a menudo conduce a estimaciones de parámetros sesgadas y una resistencia comprometida. Para abordar esta limitación crítica, proponemos un marco de selección de variables basado en la verosimilitud empírica (EL) que integra una penalización Bayesian LASSO dentro del marco de regresión cuantílica compuesta. Al construir un mecanismo de muestreo híbrido que incorpora el algoritmo de Expectation-Maximization (EM) y el algoritmo de Metropolis-Hastings (M-H) dentro del esquema de muestreo de Gibbs, este enfoque aborda eficazmente la selección de variables en entornos de alta dimensionalidad con contaminación de valores atípicos. Este diseño innovador permite la optimización simultánea de los coeficientes de regresión y los parámetros de penalización, evitando la necesidad de una selección ad hoc de parámetros de penalización óptimos, un desafío de larga data en la estimación convencional de LASSO. Además, el método propuesto no impone suposiciones restrictivas sobre la distribución de errores aleatorios en el modelo. A través de simulaciones de Monte Carlo bajo interferencia de valores atípicos y análisis empírico de dos conjuntos de datos de precios de viviendas de EE. UU., demostramos que el nuevo enfoque mejora significativamente la precisión de la selección de variables, reduce el sesgo de estimación para los coeficientes de regresión clave y muestra una resistencia robusta a la contaminación de valores atípicos de datos.
Descripción
Desde la llegada de la regresión cuantílica compuesta (CQR), su robustez inherente la ha establecido como una metodología fundamental para el análisis de datos de alta dimensionalidad. La contaminación de valores atípicos de alta dimensionalidad se refiere a escenarios de datos donde el número de dimensiones observadas () es mucho mayor que el tamaño de la muestra () y hay valores atípicos extremos en las variables de respuesta o covariables (por ejemplo, / > 0.1). Sin embargo, las técnicas tradicionales de regresión penalizada muestran una notable vulnerabilidad a los valores atípicos durante la selección de variables de alta dimensionalidad, lo que a menudo conduce a estimaciones de parámetros sesgadas y una resistencia comprometida. Para abordar esta limitación crítica, proponemos un marco de selección de variables basado en la verosimilitud empírica (EL) que integra una penalización Bayesian LASSO dentro del marco de regresión cuantílica compuesta. Al construir un mecanismo de muestreo híbrido que incorpora el algoritmo de Expectation-Maximization (EM) y el algoritmo de Metropolis-Hastings (M-H) dentro del esquema de muestreo de Gibbs, este enfoque aborda eficazmente la selección de variables en entornos de alta dimensionalidad con contaminación de valores atípicos. Este diseño innovador permite la optimización simultánea de los coeficientes de regresión y los parámetros de penalización, evitando la necesidad de una selección ad hoc de parámetros de penalización óptimos, un desafío de larga data en la estimación convencional de LASSO. Además, el método propuesto no impone suposiciones restrictivas sobre la distribución de errores aleatorios en el modelo. A través de simulaciones de Monte Carlo bajo interferencia de valores atípicos y análisis empírico de dos conjuntos de datos de precios de viviendas de EE. UU., demostramos que el nuevo enfoque mejora significativamente la precisión de la selección de variables, reduce el sesgo de estimación para los coeficientes de regresión clave y muestra una resistencia robusta a la contaminación de valores atípicos de datos.