Selección de características basada en gráficos para reducción de dimensionalidad en conjuntos de datos de secuenciación de ARN de próxima generación
Autores: Gakii, Consolata; Mireji, Paul O.; Rimiru, Richard
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Selección de características basada en gráficos para reducción de dimensionalidad en conjuntos de datos de secuenciación de ARN de próxima generación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Análisis de datos
Selección de características
Enfoque basado en gráficos
Minería de reglas de asociación
Conjuntos de datos de RNAseq
Datos de alta dimensionalidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
El análisis de datos de alta dimensionalidad, con más características que observaciones, requiere un uso significativo de costos y recursos computacionales de memoria. La selección de características puede utilizarse para reducir la dimensionalidad de los datos. Utilizamos un enfoque basado en gráficos, análisis de componentes principales (PCA) y eliminación recursiva de características para seleccionar características para la clasificación de conjuntos de datos de RNAseq de dos conjuntos de datos de cáncer de pulmón. Las características seleccionadas se discretizaron para la minería de reglas de asociación, donde se utilizaron el soporte y el lift para generar reglas informativas. Nuestros resultados muestran que la selección de características basada en gráficos mejoró el rendimiento de los clasificadores de optimización secuencial mínima (SMO) y perceptrón multicapa (MLP) en ambos conjuntos de datos. En la minería de reglas de asociación, las características seleccionadas utilizando el enfoque basado en gráficos superaron a las otras dos técnicas de selección de características con un soporte de 0.5 y un lift de 2. Las reglas no redundantes reflejan las relaciones inherentes entre las características. Las características biológicas suelen estar relacionadas con funciones en sistemas vivos, una relación que no puede deducirse solo mediante la selección y clasificación de características. Por lo tanto, el enfoque de selección de características basado en gráficos combinado con la minería de reglas es una forma adecuada de seleccionar y encontrar asociaciones entre características en datos de RNAseq de alta dimensionalidad.
Descripción
El análisis de datos de alta dimensionalidad, con más características que observaciones, requiere un uso significativo de costos y recursos computacionales de memoria. La selección de características puede utilizarse para reducir la dimensionalidad de los datos. Utilizamos un enfoque basado en gráficos, análisis de componentes principales (PCA) y eliminación recursiva de características para seleccionar características para la clasificación de conjuntos de datos de RNAseq de dos conjuntos de datos de cáncer de pulmón. Las características seleccionadas se discretizaron para la minería de reglas de asociación, donde se utilizaron el soporte y el lift para generar reglas informativas. Nuestros resultados muestran que la selección de características basada en gráficos mejoró el rendimiento de los clasificadores de optimización secuencial mínima (SMO) y perceptrón multicapa (MLP) en ambos conjuntos de datos. En la minería de reglas de asociación, las características seleccionadas utilizando el enfoque basado en gráficos superaron a las otras dos técnicas de selección de características con un soporte de 0.5 y un lift de 2. Las reglas no redundantes reflejan las relaciones inherentes entre las características. Las características biológicas suelen estar relacionadas con funciones en sistemas vivos, una relación que no puede deducirse solo mediante la selección y clasificación de características. Por lo tanto, el enfoque de selección de características basado en gráficos combinado con la minería de reglas es una forma adecuada de seleccionar y encontrar asociaciones entre características en datos de RNAseq de alta dimensionalidad.