Un Nuevo Algoritmo para la Selección de Características Usando Regresión Penalizada con Aplicaciones a Datos de Secuenciación de ARN de Células Individuales
Autores: Sen Puliparambil, Bhavithry; Tomal, Jabed H.; Yan, Yan
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un Nuevo Algoritmo para la Selección de Características Usando Regresión Penalizada con Aplicaciones a Datos de Secuenciación de ARN de Células Individuales
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Biología
Palabras clave
Emergencia
Secuenciación de ARN de una sola célula
ScRNA-seq
Aprendizaje automático
Regresión penalizada
Expresión génica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Con la aparición de la tecnología de secuenciación de ARN de una sola célula (scRNA-seq), los científicos pueden examinar la expresión génica a resolución de una sola célula. El análisis de los datos de scRNA-seq presenta sus propios desafíos, que provienen de su alta dimensionalidad. El método de aprendizaje automático ofrece la posibilidad de selección de genes (características) a partir de los datos de scRNA-seq de alta dimensión. Aunque existen múltiples métodos de aprendizaje automático que parecen ser adecuados para la selección de características, como la regresión penalizada, no hay una comparación rigurosa de sus rendimientos a través de conjuntos de datos, donde cada uno presenta sus propios desafíos. Por lo tanto, en este artículo, analizamos y comparamos múltiples métodos de regresión penalizada para datos de scRNA-seq. Dado los conjuntos de datos de scRNA-seq que analizamos, los resultados muestran que el lasso de grupo escaso (SGL) supera a los otros seis métodos (ridge, lasso, red elástica, drop lasso, lasso de grupo y big lasso) utilizando las métricas de área bajo la curva operativa del receptor (AUC) y tiempo de computación. Basándonos en estos hallazgos, propusimos un nuevo algoritmo para la selección de características utilizando métodos de regresión penalizada. El algoritmo propuesto funciona seleccionando un pequeño subconjunto de genes y aplicando SGL para seleccionar los genes diferencialmente expresados en los datos de scRNA-seq. Al utilizar agrupamiento jerárquico para agrupar genes, el método propuesto elude la necesidad de conocimiento específico del dominio para la información de agrupamiento de genes. Además, el algoritmo propuesto proporcionó consistentemente un mejor AUC para los conjuntos de datos utilizados.
Descripción
Con la aparición de la tecnología de secuenciación de ARN de una sola célula (scRNA-seq), los científicos pueden examinar la expresión génica a resolución de una sola célula. El análisis de los datos de scRNA-seq presenta sus propios desafíos, que provienen de su alta dimensionalidad. El método de aprendizaje automático ofrece la posibilidad de selección de genes (características) a partir de los datos de scRNA-seq de alta dimensión. Aunque existen múltiples métodos de aprendizaje automático que parecen ser adecuados para la selección de características, como la regresión penalizada, no hay una comparación rigurosa de sus rendimientos a través de conjuntos de datos, donde cada uno presenta sus propios desafíos. Por lo tanto, en este artículo, analizamos y comparamos múltiples métodos de regresión penalizada para datos de scRNA-seq. Dado los conjuntos de datos de scRNA-seq que analizamos, los resultados muestran que el lasso de grupo escaso (SGL) supera a los otros seis métodos (ridge, lasso, red elástica, drop lasso, lasso de grupo y big lasso) utilizando las métricas de área bajo la curva operativa del receptor (AUC) y tiempo de computación. Basándonos en estos hallazgos, propusimos un nuevo algoritmo para la selección de características utilizando métodos de regresión penalizada. El algoritmo propuesto funciona seleccionando un pequeño subconjunto de genes y aplicando SGL para seleccionar los genes diferencialmente expresados en los datos de scRNA-seq. Al utilizar agrupamiento jerárquico para agrupar genes, el método propuesto elude la necesidad de conocimiento específico del dominio para la información de agrupamiento de genes. Además, el algoritmo propuesto proporcionó consistentemente un mejor AUC para los conjuntos de datos utilizados.