Computando distancia de árbol de RF sobre representaciones sucintas
Autores: Branco, António Pedro; Vaz, Cátia; Francisco, Alexandre P.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Computando distancia de árbol de RF sobre representaciones sucintas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Herramientas
árboles filogenéticos
Métodos de inferencia
Distancia de Robinson-Foulds
Requisitos de espacio
árboles filogenéticos etiquetados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Existen varias herramientas disponibles para inferir árboles filogenéticos, que representan las relaciones evolutivas entre entidades biológicas como cepas virales y bacterianas en brotes infecciosos o células cancerosas en árboles de progresión tumoral. Estas herramientas se basan en varios métodos de inferencia disponibles para producir árboles filogenéticos, con árboles resultantes que no son únicos. Por lo tanto, se requieren métodos para comparar filogenias que sean capaces de revelar dónde dos árboles filogenéticos coinciden o difieren. Se propone entonces un enfoque para calcular una medida de similitud o disimilitud entre árboles, siendo la distancia de Robinson-Foulds una de las más utilizadas, y que puede calcularse en tiempo y espacio lineales. Sin embargo, dado el gran y creciente volumen de datos filogenéticos, los árboles filogenéticos están volviéndose muy grandes con cientos de miles de hojas. En este contexto, los requisitos de espacio se convierten en un problema tanto al calcular distancias entre árboles como al almacenar árboles. Proponemos entonces una implementación eficiente de la distancia de Robinson-Foulds sobre representaciones sucintas de árboles. Nuestra implementación también generaliza las distancias de Robinson-Foulds a árboles filogenéticos etiquetados, es decir, árboles que contienen etiquetas en todos los nodos, en lugar de solo en las hojas. Los resultados experimentales muestran que aún podemos lograr un tiempo lineal mientras se requiere menos espacio. Nuestra implementación está disponible como una herramienta de código abierto.
Descripción
Existen varias herramientas disponibles para inferir árboles filogenéticos, que representan las relaciones evolutivas entre entidades biológicas como cepas virales y bacterianas en brotes infecciosos o células cancerosas en árboles de progresión tumoral. Estas herramientas se basan en varios métodos de inferencia disponibles para producir árboles filogenéticos, con árboles resultantes que no son únicos. Por lo tanto, se requieren métodos para comparar filogenias que sean capaces de revelar dónde dos árboles filogenéticos coinciden o difieren. Se propone entonces un enfoque para calcular una medida de similitud o disimilitud entre árboles, siendo la distancia de Robinson-Foulds una de las más utilizadas, y que puede calcularse en tiempo y espacio lineales. Sin embargo, dado el gran y creciente volumen de datos filogenéticos, los árboles filogenéticos están volviéndose muy grandes con cientos de miles de hojas. En este contexto, los requisitos de espacio se convierten en un problema tanto al calcular distancias entre árboles como al almacenar árboles. Proponemos entonces una implementación eficiente de la distancia de Robinson-Foulds sobre representaciones sucintas de árboles. Nuestra implementación también generaliza las distancias de Robinson-Foulds a árboles filogenéticos etiquetados, es decir, árboles que contienen etiquetas en todos los nodos, en lugar de solo en las hojas. Los resultados experimentales muestran que aún podemos lograr un tiempo lineal mientras se requiere menos espacio. Nuestra implementación está disponible como una herramienta de código abierto.