logo móvil
Contáctanos

Lasso y Elastic Net tienden a seleccionar demasiadas características

Autores: Liu, Lu; Gao, Junheng; Beasley, Georgia; Jung, Sin-Ho

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Lasso y Elastic Net tienden a seleccionar demasiadas características


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Métodos de aprendizaje automático
Enfoque LASSO
Características
Resultado
Estimaciones de regresión
Modelo de predicción

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones


Descripción
Los métodos de aprendizaje automático han sido un enfoque estándar para seleccionar características asociadas con un resultado y construir un modelo de predicción cuando el número de características candidatas es grande. LASSO es uno de los enfoques más populares para este fin. El enfoque LASSO selecciona características con grandes estimaciones de regresión, en lugar de basarse en la significancia estadística, que están asociadas con el resultado al imponer una penalización de la norma menos uno para superar la alta dimensionalidad de las características candidatas. Como resultado, LASSO puede seleccionar características insignificantes y posiblemente perder algunas significativas. Además, en nuestra experiencia, se ha encontrado que LASSO selecciona demasiadas características. Al seleccionar características que no están asociadas con el resultado, podemos tener que gastar más costos para recolectarlas y administrarlas en el uso futuro de un modelo de predicción ajustado. Al usar la combinación de penalizaciones de la norma uno y la norma menos uno, la red elástica (EN) tiende a seleccionar incluso más características que LASSO. Las características seleccionadas en exceso que no están asociadas con el resultado actúan como ruido blanco, de modo que el modelo de predicción ajustado puede perder precisión en la predicción. En este documento, proponemos usar métodos de regresión estándar, sin ningún enfoque de penalización, combinados con un procedimiento de selección de variables paso a paso para superar estos problemas. A diferencia de LASSO y EN, este método selecciona características basadas en la significancia estadística. A través de extensas simulaciones, mostramos que este método basado en la estimación de máxima verosimilitud selecciona un número muy pequeño de características manteniendo un alto poder de predicción, mientras que LASSO y EN hacen un gran número de selecciones falsas resultando en una pérdida de precisión en la predicción. Contrariamente a LASSO y EN, los métodos de regresión combinados con un método de selección de variables paso a paso son un método estadístico estándar, por lo que cualquier biostadístico puede usarlo para analizar datos de alta dimensionalidad, incluso sin conocimientos avanzados de bioinformática.

Otros recursos que podrían interesarte

Temas Virtualpro