Regresión logística dispersa: comparación de implementaciones de regularización y bayesiana
Autores: Zanon, Mattia; Zambonin, Giuliano; Susto, Gian Antonio; McLoone, Seán
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Regresión logística dispersa: comparación de implementaciones de regularización y bayesiana
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Influencia
Variables de entrada
Modelo logístico
LASSO
Máquina de Vector Relevante
Precisión de predicción
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
En los sistemas basados en el conocimiento, además de obtener una buena precisión en la predicción de resultados, es crucial entender el subconjunto de variables de entrada que tienen mayor influencia en el resultado, con el objetivo de obtener una comprensión más profunda del proceso subyacente. Estos requisitos requieren técnicas de estimación de modelos logísticos que proporcionen una solución escasa, es decir, donde los coeficientes asociados con variables no importantes se establecen en cero. En este trabajo comparamos el rendimiento de dos métodos: el primero se basa en el conocido Operador de Encogimiento y Selección Absoluta Mínima (LASSO), que implica regularización con una norma; el segundo es la Máquina de Vector de Relevancia (RVM), que se basa en una implementación bayesiana del modelo logístico lineal. Los dos métodos se comparan exhaustivamente en este documento, en conjuntos de datos reales y simulados. Los resultados muestran que, en general, los dos enfoques son comparables en términos de rendimiento de predicción. RVM supera al LASSO tanto en términos de recuperación de estructura (estimación de los coeficientes correctos del modelo no nulos) como en precisión de predicción cuando la dimensionalidad de los datos tiende a aumentar. Sin embargo, LASSO muestra un rendimiento comparable a RVM cuando la dimensionalidad de los datos es mucho mayor que el número de muestras que es.
Descripción
En los sistemas basados en el conocimiento, además de obtener una buena precisión en la predicción de resultados, es crucial entender el subconjunto de variables de entrada que tienen mayor influencia en el resultado, con el objetivo de obtener una comprensión más profunda del proceso subyacente. Estos requisitos requieren técnicas de estimación de modelos logísticos que proporcionen una solución escasa, es decir, donde los coeficientes asociados con variables no importantes se establecen en cero. En este trabajo comparamos el rendimiento de dos métodos: el primero se basa en el conocido Operador de Encogimiento y Selección Absoluta Mínima (LASSO), que implica regularización con una norma; el segundo es la Máquina de Vector de Relevancia (RVM), que se basa en una implementación bayesiana del modelo logístico lineal. Los dos métodos se comparan exhaustivamente en este documento, en conjuntos de datos reales y simulados. Los resultados muestran que, en general, los dos enfoques son comparables en términos de rendimiento de predicción. RVM supera al LASSO tanto en términos de recuperación de estructura (estimación de los coeficientes correctos del modelo no nulos) como en precisión de predicción cuando la dimensionalidad de los datos tiende a aumentar. Sin embargo, LASSO muestra un rendimiento comparable a RVM cuando la dimensionalidad de los datos es mucho mayor que el número de muestras que es.