La alineación de tres vías mejora la alineación de secuencias altamente divergentes
Autores: Askari Rad, Mahbubeh; Kruglikov, Alibek; Xia, Xuhua
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
La alineación de tres vías mejora la alineación de secuencias altamente divergentes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Secuencias
Alineación
árbol filogenético
árbol guía
Matriz de distancias
Precisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
El enfoque estándar para construir un árbol filogenético a partir de un conjunto de secuencias consta de dos etapas clave. Primero, se calcula un alineamiento de múltiples secuencias (MSA) de las secuencias. Los datos alineados se utilizan luego para reconstruir el árbol filogenético. La precisión del árbol resultante depende en gran medida de la calidad del MSA. La calidad del alineamiento de secuencias progresivas comúnmente utilizado depende de un árbol guía, que determina el orden de alinear las secuencias. La mayoría de los métodos de MSA utilizan comparaciones de pares para generar una matriz de distancias y reconstruir el árbol guía. Sin embargo, al tratar con secuencias altamente divergentes, la construcción de un buen árbol guía es un desafío. En este trabajo, proponemos un enfoque alternativo que utiliza un alineamiento de programación dinámica de tres vías para generar la matriz de distancias y el árbol guía. Este alineamiento de tres vías incorpora información de secuencias adicionales para calcular distancias evolutivas de manera más precisa. Utilizando conjuntos de datos simulados en dos árboles simétricos y asimétricos, comparamos MAFFT con su árbol guía predeterminado con MAFFT con un árbol guía producido utilizando el alineamiento de tres vías. Encontramos que (1) el alineamiento de tres vías puede reconstruir mejores árboles guía que los de las opciones más precisas de MAFFT, y (2) el mejor árbol guía, en promedio, conduce a una reconstrucción filogenética más precisa. Sin embargo, la mejora sobre la opción L-INS-i de MAFFT es pequeña, lo que atestigua la excelencia de la calidad de alineamiento de MAFFT. Sorprendentemente, los dos criterios para elegir el mejor MSA (exactitud filogenética y puntaje de suma de pares) entran en conflicto entre sí.
Descripción
El enfoque estándar para construir un árbol filogenético a partir de un conjunto de secuencias consta de dos etapas clave. Primero, se calcula un alineamiento de múltiples secuencias (MSA) de las secuencias. Los datos alineados se utilizan luego para reconstruir el árbol filogenético. La precisión del árbol resultante depende en gran medida de la calidad del MSA. La calidad del alineamiento de secuencias progresivas comúnmente utilizado depende de un árbol guía, que determina el orden de alinear las secuencias. La mayoría de los métodos de MSA utilizan comparaciones de pares para generar una matriz de distancias y reconstruir el árbol guía. Sin embargo, al tratar con secuencias altamente divergentes, la construcción de un buen árbol guía es un desafío. En este trabajo, proponemos un enfoque alternativo que utiliza un alineamiento de programación dinámica de tres vías para generar la matriz de distancias y el árbol guía. Este alineamiento de tres vías incorpora información de secuencias adicionales para calcular distancias evolutivas de manera más precisa. Utilizando conjuntos de datos simulados en dos árboles simétricos y asimétricos, comparamos MAFFT con su árbol guía predeterminado con MAFFT con un árbol guía producido utilizando el alineamiento de tres vías. Encontramos que (1) el alineamiento de tres vías puede reconstruir mejores árboles guía que los de las opciones más precisas de MAFFT, y (2) el mejor árbol guía, en promedio, conduce a una reconstrucción filogenética más precisa. Sin embargo, la mejora sobre la opción L-INS-i de MAFFT es pequeña, lo que atestigua la excelencia de la calidad de alineamiento de MAFFT. Sorprendentemente, los dos criterios para elegir el mejor MSA (exactitud filogenética y puntaje de suma de pares) entran en conflicto entre sí.