Regresión de Cresta y la Red Elástica: ¿Cómo se desempeñan como buscadores de verdaderos regresores y sus coeficientes?
Autores: Gana, Rajaram
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Regresión de Cresta y la Red Elástica: ¿Cómo se desempeñan como buscadores de verdaderos regresores y sus coeficientes?
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Modelo lineal
Red elástica
Lasso
Regresión ridge
Regresión ridge generalizada
Regresores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Para el modelo lineal, donde el número de regresores () excede el número de observaciones (), se propuso el Elastic Net (EN) en 2005 para estimar . El EN utiliza el Lasso, propuesto en 1996, y la Regresión Ridge ordinaria (RR), propuesta en 1970, para estimar . Sin embargo, cuando , el uso de RR para estimar no ha sido considerado en la literatura hasta el momento. Debido a que RR se basa en el marco de mínimos cuadrados, usar solo RR para estimar es mucho más simple computacionalmente que usar el EN. Proponemos un algoritmo de regresión ridge generalizada (GRR), una alternativa superior al EN, para estimar de la siguiente manera: dividir de izquierda a derecha de modo que cada partición, excepto la última, tenga 3 observaciones por regresor; para cada partición, estimamos con los regresores en esa partición usando RR ordinario; conservamos los regresores con -ratios estadísticamente significativos y el correspondiente parámetro de ajuste de RR , por partición; utilizamos los regresores retenidos y los valores para reestimar por GRR en todas las particiones, lo que produce . La eficacia algorítmica se compara utilizando 4 métricas mediante simulación, ya que el algoritmo es matemáticamente intratable. Tres métricas, con sus probabilidades de superioridad de RR sobre EN entre paréntesis, son: la proporción de verdaderos regresores descubiertos (99%); la distancia al cuadrado, de los coeficientes verdaderos, de los coeficientes significativos (86%); y la distancia al cuadrado, de los coeficientes estimados que son tanto significativos como verdaderos, respecto a los verdaderos coeficientes (74%). La cuarta métrica es la probabilidad de que ninguno de los regresores descubiertos sea verdadero, que para RR y EN es del 4% y del 25%, respectivamente. Esto indica la ventaja adicional que RR tiene sobre EN en términos de descubrir regresores causales.
Descripción
Para el modelo lineal, donde el número de regresores () excede el número de observaciones (), se propuso el Elastic Net (EN) en 2005 para estimar . El EN utiliza el Lasso, propuesto en 1996, y la Regresión Ridge ordinaria (RR), propuesta en 1970, para estimar . Sin embargo, cuando , el uso de RR para estimar no ha sido considerado en la literatura hasta el momento. Debido a que RR se basa en el marco de mínimos cuadrados, usar solo RR para estimar es mucho más simple computacionalmente que usar el EN. Proponemos un algoritmo de regresión ridge generalizada (GRR), una alternativa superior al EN, para estimar de la siguiente manera: dividir de izquierda a derecha de modo que cada partición, excepto la última, tenga 3 observaciones por regresor; para cada partición, estimamos con los regresores en esa partición usando RR ordinario; conservamos los regresores con -ratios estadísticamente significativos y el correspondiente parámetro de ajuste de RR , por partición; utilizamos los regresores retenidos y los valores para reestimar por GRR en todas las particiones, lo que produce . La eficacia algorítmica se compara utilizando 4 métricas mediante simulación, ya que el algoritmo es matemáticamente intratable. Tres métricas, con sus probabilidades de superioridad de RR sobre EN entre paréntesis, son: la proporción de verdaderos regresores descubiertos (99%); la distancia al cuadrado, de los coeficientes verdaderos, de los coeficientes significativos (86%); y la distancia al cuadrado, de los coeficientes estimados que son tanto significativos como verdaderos, respecto a los verdaderos coeficientes (74%). La cuarta métrica es la probabilidad de que ninguno de los regresores descubiertos sea verdadero, que para RR y EN es del 4% y del 25%, respectivamente. Esto indica la ventaja adicional que RR tiene sobre EN en términos de descubrir regresores causales.