Análisis de expresión génica a través de la factorización de matrices no negativas en paralelo
Autores: Serrano-Rubio, Angelica Alejandra; Morales-Luna, Guillermo B.; Meneses-Viveros, Amilcar
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Análisis de expresión génica a través de la factorización de matrices no negativas en paralelo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Análisis de expresión genética
Algoritmos de agrupamiento
Optimización del tiempo de computación
Optimización del consumo de memoria
Factorización de matrices no negativas
Entornos basados en GPU
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
El análisis de la expresión genética es una herramienta principal para explicar el comportamiento de los genes en un organismo cuando se exponen a diferentes condiciones experimentales. En el estado del arte, se han propuesto muchos algoritmos de agrupamiento. Es abrumadora la cantidad de datos biológicos cuya estructura de alta dimensionalidad supera en su mayoría a las arquitecturas computacionales actuales. La optimización del tiempo computacional y el consumo de memoria se convierten en factores decisivos a la hora de elegir algoritmos de agrupamiento. Proponemos un algoritmo de agrupamiento basado en la Factorización de Matrices No Negativas y K-means para reducir la dimensionalidad de los datos, preservando el contexto biológico y priorizando la selección de genes, implementado en entornos paralelos basados en GPU a través de la biblioteca CUDA. En nuestras pruebas utilizamos un conjunto de datos conocido y la calidad de los resultados se mide a través del Índice de Rand y la Precisión. Los resultados muestran un aumento en la aceleración de 6.22 veces en comparación con la versión secuencial. El algoritmo es competitivo en el análisis de conjuntos de datos biológicos y es invariante con respecto al número de clases y al tamaño de la matriz de expresión génica.
Descripción
El análisis de la expresión genética es una herramienta principal para explicar el comportamiento de los genes en un organismo cuando se exponen a diferentes condiciones experimentales. En el estado del arte, se han propuesto muchos algoritmos de agrupamiento. Es abrumadora la cantidad de datos biológicos cuya estructura de alta dimensionalidad supera en su mayoría a las arquitecturas computacionales actuales. La optimización del tiempo computacional y el consumo de memoria se convierten en factores decisivos a la hora de elegir algoritmos de agrupamiento. Proponemos un algoritmo de agrupamiento basado en la Factorización de Matrices No Negativas y K-means para reducir la dimensionalidad de los datos, preservando el contexto biológico y priorizando la selección de genes, implementado en entornos paralelos basados en GPU a través de la biblioteca CUDA. En nuestras pruebas utilizamos un conjunto de datos conocido y la calidad de los resultados se mide a través del Índice de Rand y la Precisión. Los resultados muestran un aumento en la aceleración de 6.22 veces en comparación con la versión secuencial. El algoritmo es competitivo en el análisis de conjuntos de datos biológicos y es invariante con respecto al número de clases y al tamaño de la matriz de expresión génica.