Sobre el rendimiento de la selección de variables y clasificación a través de un clasificador basado en rangos
Autores: Sarker, Md Showaib Rahman; Pokojovy, Michael; Kim, Sangjin
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Sobre el rendimiento de la selección de variables y clasificación a través de un clasificador basado en rangos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos de expresión génica
Clasificación de cáncer
Genes importantes
Patrones de correlación
Regresión logística
Regresión penalizada
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
En el análisis de datos de expresión génica de alta dimensionalidad, la precisión y confiabilidad de la clasificación del cáncer y la selección de genes importantes juegan un papel crucial. Para identificar estos genes importantes y predecir resultados futuros (tumor vs. no tumor), se han propuesto varios métodos en la literatura. Pero solo unos pocos tienen en cuenta los patrones de correlación y los efectos de agrupación entre los genes. En este artículo, proponemos una modificación basada en rangos del procedimiento popular de regresión logística penalizada basada en una combinación de y penalizaciones capaces de manejar posibles correlaciones entre genes en diferentes grupos. Mientras que la penalización mantiene la dispersión, la penalización induce suavidad basada en la información de la matriz de Laplaciano, que representa el patrón de correlación entre genes. Combinamos la regresión logística con el procedimiento de cribado BH-FDR (tasa de descubrimiento falso de Benjamini y Hochberg) y un método de selección basado en rangos recién desarrollado para llegar a un modelo óptimo que retenga los genes importantes. A través de estudios de simulación y aplicación en el mundo real a datos de expresión génica de cáncer de colon de alta dimensionalidad, demostramos que el método basado en rangos propuesto supera a métodos actualmente populares como lasso, lasso adaptativo y red elástica cuando se aplican tanto a la selección de genes como a la clasificación.
Descripción
En el análisis de datos de expresión génica de alta dimensionalidad, la precisión y confiabilidad de la clasificación del cáncer y la selección de genes importantes juegan un papel crucial. Para identificar estos genes importantes y predecir resultados futuros (tumor vs. no tumor), se han propuesto varios métodos en la literatura. Pero solo unos pocos tienen en cuenta los patrones de correlación y los efectos de agrupación entre los genes. En este artículo, proponemos una modificación basada en rangos del procedimiento popular de regresión logística penalizada basada en una combinación de y penalizaciones capaces de manejar posibles correlaciones entre genes en diferentes grupos. Mientras que la penalización mantiene la dispersión, la penalización induce suavidad basada en la información de la matriz de Laplaciano, que representa el patrón de correlación entre genes. Combinamos la regresión logística con el procedimiento de cribado BH-FDR (tasa de descubrimiento falso de Benjamini y Hochberg) y un método de selección basado en rangos recién desarrollado para llegar a un modelo óptimo que retenga los genes importantes. A través de estudios de simulación y aplicación en el mundo real a datos de expresión génica de cáncer de colon de alta dimensionalidad, demostramos que el método basado en rangos propuesto supera a métodos actualmente populares como lasso, lasso adaptativo y red elástica cuando se aplican tanto a la selección de genes como a la clasificación.