Aprendizaje de Embedding Hiperbólico para la Colocación y Actualizaciones de Árboles Filogenéticos
Autores: Jiang, Yueyu; Tabaghi, Puoya; Mirarab, Siavash
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje de Embedding Hiperbólico para la Colocación y Actualizaciones de Árboles Filogenéticos
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Biología
Palabras clave
Colocación filogenética
Enfoque de aprendizaje profundo
Espacios hiperbólicos
Secuencias de genes
Método de colocación basado en distancias
árboles de especies
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
El posicionamiento filogenético, utilizado ampliamente en análisis ecológicos, busca añadir una nueva especie a un árbol existente. Se propuso previamente un enfoque de aprendizaje profundo para estimar la distancia entre especies de consulta y de referencia construyendo un mapa de secuencias de genes a un espacio de alta dimensión que preserva las distancias del árbol de especies. Luego utilizan un método de posicionamiento basado en distancias para colocar las consultas en ese árbol de especies. En este artículo, examinamos la geometría apropiada para representar fielmente las distancias del árbol mientras se incrustan las secuencias de genes. La teoría predice que los espacios hiperbólicos deberían proporcionar una drástica reducción en la distorsión de distancias en comparación con el espacio euclidiano convencional. Sin embargo, la incrustación hiperbólica impone sus propios desafíos únicos relacionados con operaciones aritméticas, funciones de crecimiento exponencial y precisión de bits limitada, y abordamos estos desafíos. Nuestros resultados confirman que las incrustaciones hiperbólicas tienen errores de distancia sustancialmente más bajos que el espacio euclidiano. Sin embargo, estas distancias mejor estimadas no siempre conducen a un mejor posicionamiento filogenético. Luego mostramos que el marco de aprendizaje profundo se puede utilizar no solo para posicionar en un árbol de referencia, sino para actualizarlo y obtener un árbol completamente resuelto. Con nuestro marco de incrustación hiperbólica, los árboles de especies se pueden actualizar de manera notablemente precisa con solo un puñado de genes.
Descripción
El posicionamiento filogenético, utilizado ampliamente en análisis ecológicos, busca añadir una nueva especie a un árbol existente. Se propuso previamente un enfoque de aprendizaje profundo para estimar la distancia entre especies de consulta y de referencia construyendo un mapa de secuencias de genes a un espacio de alta dimensión que preserva las distancias del árbol de especies. Luego utilizan un método de posicionamiento basado en distancias para colocar las consultas en ese árbol de especies. En este artículo, examinamos la geometría apropiada para representar fielmente las distancias del árbol mientras se incrustan las secuencias de genes. La teoría predice que los espacios hiperbólicos deberían proporcionar una drástica reducción en la distorsión de distancias en comparación con el espacio euclidiano convencional. Sin embargo, la incrustación hiperbólica impone sus propios desafíos únicos relacionados con operaciones aritméticas, funciones de crecimiento exponencial y precisión de bits limitada, y abordamos estos desafíos. Nuestros resultados confirman que las incrustaciones hiperbólicas tienen errores de distancia sustancialmente más bajos que el espacio euclidiano. Sin embargo, estas distancias mejor estimadas no siempre conducen a un mejor posicionamiento filogenético. Luego mostramos que el marco de aprendizaje profundo se puede utilizar no solo para posicionar en un árbol de referencia, sino para actualizarlo y obtener un árbol completamente resuelto. Con nuestro marco de incrustación hiperbólica, los árboles de especies se pueden actualizar de manera notablemente precisa con solo un puñado de genes.