Clasificación en Conjunto a través de Proyecciones Aleatorias para Datos de RNA-Seq de Células Individuales
Autores: Vrahatis, Aristidis G.; Tasoulis, Sotiris K.; Georgakopoulos, Spiros V.; Plagianakos, Vassilis P.
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Clasificación en Conjunto a través de Proyecciones Aleatorias para Datos de RNA-Seq de Células Individuales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Datos biomédicos
Tecnología scRNA-seq
Algoritmo MRPV
Clasificación en conjunto
Subespacios proyectados aleatorios
Dimensionalidad de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Hoy en día, los datos biomédicos se generan de manera exponencial, creando conjuntos de datos para análisis con ultra-alta dimensionalidad y complejidad. Un ejemplo indicativo es la tecnología emergente de secuenciación de ARN de una sola célula (scRNA-seq), que aísla y mide células individuales. El análisis de los datos de scRNA-seq consiste en un gran desafío debido a su ultra-alta dimensionalidad y complejidad. En esta dirección, estudiamos la generalización del MRPV, un algoritmo de clasificación en conjunto publicado recientemente, que combina múltiples espacios proyectados aleatorios de ultra-baja dimensionalidad con un esquema de votación, mientras expone su capacidad para mejorar el rendimiento de los clasificadores base. Mostramos empíricamente que podemos diseñar una técnica de clasificación en conjunto confiable utilizando subespacios proyectados aleatorios en un número extremadamente pequeño y fijo de dimensiones, sin seguir las restricciones del método clásico de proyección aleatoria. Por lo tanto, el MPRV adquiere la capacidad de realizar tareas de clasificación de manera eficiente y rápida, incluso para datos con dimensionalidad extremadamente alta. Además, a través del análisis experimental en seis datos de scRNA-seq, proporcionamos evidencia de que la ventaja más crítica del MRPV es la drástica reducción en la dimensionalidad de los datos que permite la utilización de clasificadores que requieren mucha computación y que se consideran no prácticos en aplicaciones de la vida real. La escalabilidad, la simplicidad y las capacidades de nuestro marco propuesto lo convierten en una herramienta-guía para datos de scRNA-seq que se caracterizan por su ultra-alta dimensionalidad. El MRPV está disponible en GitHub en implementación MATLAB.
Descripción
Hoy en día, los datos biomédicos se generan de manera exponencial, creando conjuntos de datos para análisis con ultra-alta dimensionalidad y complejidad. Un ejemplo indicativo es la tecnología emergente de secuenciación de ARN de una sola célula (scRNA-seq), que aísla y mide células individuales. El análisis de los datos de scRNA-seq consiste en un gran desafío debido a su ultra-alta dimensionalidad y complejidad. En esta dirección, estudiamos la generalización del MRPV, un algoritmo de clasificación en conjunto publicado recientemente, que combina múltiples espacios proyectados aleatorios de ultra-baja dimensionalidad con un esquema de votación, mientras expone su capacidad para mejorar el rendimiento de los clasificadores base. Mostramos empíricamente que podemos diseñar una técnica de clasificación en conjunto confiable utilizando subespacios proyectados aleatorios en un número extremadamente pequeño y fijo de dimensiones, sin seguir las restricciones del método clásico de proyección aleatoria. Por lo tanto, el MPRV adquiere la capacidad de realizar tareas de clasificación de manera eficiente y rápida, incluso para datos con dimensionalidad extremadamente alta. Además, a través del análisis experimental en seis datos de scRNA-seq, proporcionamos evidencia de que la ventaja más crítica del MRPV es la drástica reducción en la dimensionalidad de los datos que permite la utilización de clasificadores que requieren mucha computación y que se consideran no prácticos en aplicaciones de la vida real. La escalabilidad, la simplicidad y las capacidades de nuestro marco propuesto lo convierten en una herramienta-guía para datos de scRNA-seq que se caracterizan por su ultra-alta dimensionalidad. El MRPV está disponible en GitHub en implementación MATLAB.