Detección conjunta para datos multiómicos de ultra alta dimensión
Autores: Kemmo Tsafack, Ulrich; Lin, Chien-Wei; Ahn, Kwang Woo
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Detección conjunta para datos multiómicos de ultra alta dimensión
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Investigadores
Datos multi-ómicos de ultra alta dimensión
Genes significativos
ómicos
Datos estructurados jerárquicamente
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Los investigadores a menudo se enfrentan a datos multi-ómicos de ultra alta dimensión, donde la identificación de genes significativos y omics dentro de un gen es de interés. En tales datos, cada gen forma un grupo que consiste en sus múltiples omics. Además, algunos genes también pueden estar altamente correlacionados. Esto lleva a una estructura de datos jerárquica de tres niveles: el nivel de clúster, que es el grupo de genes correlacionados, el nivel de subgrupo, que es el grupo de omics del mismo gen, y el nivel individual, que consiste en omics. El cribado se utiliza ampliamente para eliminar variables no importantes para que el número de variables restantes sea menor que el tamaño de la muestra. La regresión penalizada con las variables restantes después de realizar el cribado se utiliza entonces para identificar variables importantes. Para cribar genes no importantes, proponemos agrupar genes y realizar un cribado. Mostramos que el método de cribado propuesto posee la propiedad de cribado seguro. Simulaciones extensas muestran que el método de cribado propuesto supera a los métodos competidores. Aplicamos el método de selección de variables propuesto al conjunto de datos de cáncer de mama de TCGA para identificar genes y omics relacionados con el cáncer de mama.
Descripción
Los investigadores a menudo se enfrentan a datos multi-ómicos de ultra alta dimensión, donde la identificación de genes significativos y omics dentro de un gen es de interés. En tales datos, cada gen forma un grupo que consiste en sus múltiples omics. Además, algunos genes también pueden estar altamente correlacionados. Esto lleva a una estructura de datos jerárquica de tres niveles: el nivel de clúster, que es el grupo de genes correlacionados, el nivel de subgrupo, que es el grupo de omics del mismo gen, y el nivel individual, que consiste en omics. El cribado se utiliza ampliamente para eliminar variables no importantes para que el número de variables restantes sea menor que el tamaño de la muestra. La regresión penalizada con las variables restantes después de realizar el cribado se utiliza entonces para identificar variables importantes. Para cribar genes no importantes, proponemos agrupar genes y realizar un cribado. Mostramos que el método de cribado propuesto posee la propiedad de cribado seguro. Simulaciones extensas muestran que el método de cribado propuesto supera a los métodos competidores. Aplicamos el método de selección de variables propuesto al conjunto de datos de cáncer de mama de TCGA para identificar genes y omics relacionados con el cáncer de mama.