logo móvil
Contáctanos

Sobre el rendimiento de la selección de variables y clasificación a través de un clasificador basado en rangos

Autores: Sarker, Md Showaib Rahman; Pokojovy, Michael; Kim, Sangjin

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Sobre el rendimiento de la selección de variables y clasificación a través de un clasificador basado en rangos


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Datos de expresión génica
Clasificación de cáncer
Genes importantes
Patrones de correlación
Regresión logística
Regresión penalizada

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
En el análisis de datos de expresión génica de alta dimensionalidad, la precisión y confiabilidad de la clasificación del cáncer y la selección de genes importantes juegan un papel crucial. Para identificar estos genes importantes y predecir resultados futuros (tumor vs. no tumor), se han propuesto varios métodos en la literatura. Pero solo unos pocos tienen en cuenta los patrones de correlación y los efectos de agrupación entre los genes. En este artículo, proponemos una modificación basada en rangos del procedimiento popular de regresión logística penalizada basada en una combinación de y penalizaciones capaces de manejar posibles correlaciones entre genes en diferentes grupos. Mientras que la penalización mantiene la dispersión, la penalización induce suavidad basada en la información de la matriz de Laplaciano, que representa el patrón de correlación entre genes. Combinamos la regresión logística con el procedimiento de cribado BH-FDR (tasa de descubrimiento falso de Benjamini y Hochberg) y un método de selección basado en rangos recién desarrollado para llegar a un modelo óptimo que retenga los genes importantes. A través de estudios de simulación y aplicación en el mundo real a datos de expresión génica de cáncer de colon de alta dimensionalidad, demostramos que el método basado en rangos propuesto supera a métodos actualmente populares como lasso, lasso adaptativo y red elástica cuando se aplican tanto a la selección de genes como a la clasificación.

Otros recursos que podrían interesarte

Temas Virtualpro