Cribado de características compuestas por cuantiles para datos ultradimensionales
Autores: Chen, Shuaishuai; Lu, Jun
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Cribado de características compuestas por cuantiles para datos ultradimensionales
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos agrupados
Bioestadísticos
Procedimiento de selección de características compuestas por cuantiles
Predictor continuo
Variable de Bernoulli
Estadístico chi-cuadrado de Pearson
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Los biostatísticos que trabajan en problemas categóricos de múltiples clases frecuentemente se encuentran con datos agrupados de dimensionalidad ultramuy alta. Para descartar rápidamente los predictores nulos, este artículo propone un procedimiento de selección de características compuestas por cuantiles. El nuevo método primero transforma el predictor continuo en una variable de Bernoulli, al establecer un umbral en un cierto cuantil. En consecuencia, la independencia entre la respuesta y cada predictor es fácil de juzgar, utilizando la estadística de chi-cuadrado de Pearson. El método recién propuesto tiene las siguientes características destacadas: (1) es robusto contra datos heterogéneos de alta dimensión; (2) no depende de un modelo, sin especificar ninguna estructura de regresión entre la covariable y la variable de resultado; (3) tiene un bajo costo computacional, con la complejidad computacional controlada a nivel del tamaño de la muestra. Bajo algunas condiciones moderadas, se demostró que el nuevo método logra la propiedad de selección segura sin imponer ninguna condición de momento en los predictores. Estudios numéricos y análisis de datos reales confirmaron aún más la efectividad del nuevo procedimiento de selección.
Descripción
Los biostatísticos que trabajan en problemas categóricos de múltiples clases frecuentemente se encuentran con datos agrupados de dimensionalidad ultramuy alta. Para descartar rápidamente los predictores nulos, este artículo propone un procedimiento de selección de características compuestas por cuantiles. El nuevo método primero transforma el predictor continuo en una variable de Bernoulli, al establecer un umbral en un cierto cuantil. En consecuencia, la independencia entre la respuesta y cada predictor es fácil de juzgar, utilizando la estadística de chi-cuadrado de Pearson. El método recién propuesto tiene las siguientes características destacadas: (1) es robusto contra datos heterogéneos de alta dimensión; (2) no depende de un modelo, sin especificar ninguna estructura de regresión entre la covariable y la variable de resultado; (3) tiene un bajo costo computacional, con la complejidad computacional controlada a nivel del tamaño de la muestra. Bajo algunas condiciones moderadas, se demostró que el nuevo método logra la propiedad de selección segura sin imponer ninguna condición de momento en los predictores. Estudios numéricos y análisis de datos reales confirmaron aún más la efectividad del nuevo procedimiento de selección.