Ordenación de características ómicas utilizando distribuciones beta en valores de Montecarlo
Autores: Riffo-Campos, Angela L.; Ayala, Guillermo; Domingo, Juan
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Ordenación de características ómicas utilizando distribuciones beta en valores de Montecarlo
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Investigación genética
Datos ómicos
Métodos estadísticos
Método de Montecarlo
Características diferenciales
Cáncer colorrectal.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
La tendencia actual en la investigación genética es el estudio de datos ómicos en su totalidad, ya sea combinando estudios o técnicas ómicas. Esto plantea la necesidad de nuevos métodos estadísticos robustos que puedan integrar y ordenar la información biológica relevante. Una buena forma de abordar el problema es ordenar las características estudiadas de acuerdo con los diferentes tipos de datos, por lo que un punto clave es asociar buenos valores a las características que nos permitan una buena clasificación de ellas. Estos valores suelen ser los p-valores correspondientes a una hipótesis que se ha probado para cada característica estudiada. El método de Montecarlo es ciertamente uno de los métodos más robustos para la prueba de hipótesis. Sin embargo, se necesita un gran número de simulaciones para obtener un p-valor confiable, por lo que el método se vuelve computacionalmente inviable en muchas situaciones. Proponemos una nueva forma de ordenar genes según sus características diferenciales mediante el uso de un puntaje definido a partir de una distribución beta ajustada a los p-valores generados. Nuestro enfoque ha sido probado utilizando datos simulados y conjuntos de datos de cáncer colorrectal de la matriz de metilaciónEPIC de Infinium, la matriz de expresión génica de Affymetrix y las plataformas de RNA-seq de Illumina. Los resultados muestran que este enfoque permite una clasificación adecuada de genes utilizando un número de simulaciones mucho menor que con el método de Montecarlo. Además, el puntaje se puede interpretar como un p-valor estimado y compararse con Montecarlo y otros enfoques como el p-valor de los -tests moderados. También hemos identificado un nuevo patrón de expresión de dieciocho genes comunes a todos los microarrays de cáncer colorrectal, es decir, 21 conjuntos de datos. Por lo tanto, el método propuesto es efectivo para obtener resultados biológicos utilizando diferentes conjuntos de datos. Nuestro puntaje muestra un error tipo I ligeramente menor para tamaños pequeños que el p-valor de Montecarlo. El error tipo II del p-valor de Montecarlo es menor que el obtenido con el puntaje propuesto y con un p-valor moderado, pero estas diferencias se reducen considerablemente para tamaños de muestra más grandes y tasas de descubrimiento falsas más altas. Un rendimiento similar en los errores tipo I y II y el puntaje permiten una clara clasificación de las características evaluadas.
Descripción
La tendencia actual en la investigación genética es el estudio de datos ómicos en su totalidad, ya sea combinando estudios o técnicas ómicas. Esto plantea la necesidad de nuevos métodos estadísticos robustos que puedan integrar y ordenar la información biológica relevante. Una buena forma de abordar el problema es ordenar las características estudiadas de acuerdo con los diferentes tipos de datos, por lo que un punto clave es asociar buenos valores a las características que nos permitan una buena clasificación de ellas. Estos valores suelen ser los p-valores correspondientes a una hipótesis que se ha probado para cada característica estudiada. El método de Montecarlo es ciertamente uno de los métodos más robustos para la prueba de hipótesis. Sin embargo, se necesita un gran número de simulaciones para obtener un p-valor confiable, por lo que el método se vuelve computacionalmente inviable en muchas situaciones. Proponemos una nueva forma de ordenar genes según sus características diferenciales mediante el uso de un puntaje definido a partir de una distribución beta ajustada a los p-valores generados. Nuestro enfoque ha sido probado utilizando datos simulados y conjuntos de datos de cáncer colorrectal de la matriz de metilaciónEPIC de Infinium, la matriz de expresión génica de Affymetrix y las plataformas de RNA-seq de Illumina. Los resultados muestran que este enfoque permite una clasificación adecuada de genes utilizando un número de simulaciones mucho menor que con el método de Montecarlo. Además, el puntaje se puede interpretar como un p-valor estimado y compararse con Montecarlo y otros enfoques como el p-valor de los -tests moderados. También hemos identificado un nuevo patrón de expresión de dieciocho genes comunes a todos los microarrays de cáncer colorrectal, es decir, 21 conjuntos de datos. Por lo tanto, el método propuesto es efectivo para obtener resultados biológicos utilizando diferentes conjuntos de datos. Nuestro puntaje muestra un error tipo I ligeramente menor para tamaños pequeños que el p-valor de Montecarlo. El error tipo II del p-valor de Montecarlo es menor que el obtenido con el puntaje propuesto y con un p-valor moderado, pero estas diferencias se reducen considerablemente para tamaños de muestra más grandes y tasas de descubrimiento falsas más altas. Un rendimiento similar en los errores tipo I y II y el puntaje permiten una clara clasificación de las características evaluadas.