Colocación Filogenética Basada en Distancia con Soporte Estadístico
Autores: Hasan, Navid Bin; Balaban, Metin; Biswas, Avijit; Bayzid, Md. Shamsuzzoha; Mirarab, Siavash
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Colocación Filogenética Basada en Distancia con Soporte Estadístico
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Biología
Palabras clave
Filogenético
Secuencias
Incertidumbre
Métodos
Remuestreo
Basado en distancias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
La identificación filogenética de secuencias desconocidas al colocarlas en un árbol se intenta rutinariamente en estudios ecológicos modernos. Tales colocaciones a menudo se obtienen a partir de datos incompletos y ruidosos, lo que hace esencial complementar los resultados con alguna noción de incertidumbre. Si bien los métodos estándar basados en la verosimilitud diseñados para la colocación proporcionan naturalmente tales medidas de incertidumbre, los métodos más nuevos y escalables basados en distancias carecen de esta característica crucial. Aquí, adoptamos varios métodos de muestreo paramétricos y no paramétricos para medir el soporte de las colocaciones filogenéticas que se han obtenido con el uso de distancias. Al comparar las estrategias alternativas, concluimos que el muestreo bootstrap no paramétrico es más preciso que las alternativas. A continuación, mostramos cómo se puede realizar el muestreo bootstrap de manera eficiente utilizando una formulación algebraica lineal que lo hace hasta 30 veces más rápido e implementamos esta versión optimizada como parte del software de colocación basado en distancias APPLES. Al examinar una amplia gama de aplicaciones, mostramos que la precisión relativa de los valores de soporte de máxima verosimilitud (ML) en comparación con los métodos basados en distancias depende de la aplicación y del conjunto de datos. ML es ventajoso para consultas fragmentarias, mientras que los valores de soporte basados en distancias son más precisos para conjuntos de datos de longitud completa y multi-génicos. Con la cuantificación de la incertidumbre, nuestro trabajo llena una brecha crucial que impide la adopción más amplia de herramientas de colocación basadas en distancias.
Descripción
La identificación filogenética de secuencias desconocidas al colocarlas en un árbol se intenta rutinariamente en estudios ecológicos modernos. Tales colocaciones a menudo se obtienen a partir de datos incompletos y ruidosos, lo que hace esencial complementar los resultados con alguna noción de incertidumbre. Si bien los métodos estándar basados en la verosimilitud diseñados para la colocación proporcionan naturalmente tales medidas de incertidumbre, los métodos más nuevos y escalables basados en distancias carecen de esta característica crucial. Aquí, adoptamos varios métodos de muestreo paramétricos y no paramétricos para medir el soporte de las colocaciones filogenéticas que se han obtenido con el uso de distancias. Al comparar las estrategias alternativas, concluimos que el muestreo bootstrap no paramétrico es más preciso que las alternativas. A continuación, mostramos cómo se puede realizar el muestreo bootstrap de manera eficiente utilizando una formulación algebraica lineal que lo hace hasta 30 veces más rápido e implementamos esta versión optimizada como parte del software de colocación basado en distancias APPLES. Al examinar una amplia gama de aplicaciones, mostramos que la precisión relativa de los valores de soporte de máxima verosimilitud (ML) en comparación con los métodos basados en distancias depende de la aplicación y del conjunto de datos. ML es ventajoso para consultas fragmentarias, mientras que los valores de soporte basados en distancias son más precisos para conjuntos de datos de longitud completa y multi-génicos. Con la cuantificación de la incertidumbre, nuestro trabajo llena una brecha crucial que impide la adopción más amplia de herramientas de colocación basadas en distancias.