logo móvil
Contáctanos

Agrupación de contigs metagenómicos utilizando incrustaciones de contigs y frecuencia de tetranucleótidos descompuesta

Autores: Fu, Long; Shi, Jiabin; Huang, Baohua

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Agrupación de contigs metagenómicos utilizando incrustaciones de contigs y frecuencia de tetranucleótidos descompuesta


Categoría

Ciencias Naturales y Subdisciplinas

Subcategoría

Biología

Palabras clave

Binned metagenómico
Incrustación de contigs
Frecuencia de tetranucleótidos
Algoritmo de agrupamiento
Algoritmo DBSCAN
CedtBin

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones


Descripción
El agrupamiento metagenómico es un paso crucial en la investigación metagenómica. Puede agregar las secuencias genómicas que pertenecen a la misma especie microbiana en contenedores independientes. La mayoría de los métodos existentes ignoran la información semántica de los contigs y carecen de un procesamiento efectivo de la frecuencia de tetranucleótidos, lo que resulta en información de características insuficiente y compleja extraída para el agrupamiento y en malos resultados de agrupamiento. Para abordar los problemas mencionados, proponemos CedtBin, un método de agrupamiento metagenómico basado en la incrustación de contigs y la frecuencia de tetranucleótidos descompuesta. Primero, se utiliza el modelo BERT mejorado para aprender los contigs y obtener su representación de incrustación. En segundo lugar, las frecuencias de tetranucleótidos se descomponen utilizando un algoritmo de factorización de matriz no negativa (NMF). Después de eso, las dos características se combinan y se introducen en el algoritmo de agrupamiento para el agrupamiento. Considerando la sensibilidad del algoritmo de agrupamiento DBSCAN a los parámetros de entrada, para resolver las desventajas de la entrada manual de parámetros, también proponemos un algoritmo Annoy-DBSCAN que puede determinar de manera adaptativa los parámetros del algoritmo DBSCAN. Este algoritmo utiliza Aproximación de Vecinos Más Cercanos Oh Yeah (Annoy) y lo combina con una estrategia de búsqueda en cuadrícula para encontrar los parámetros óptimos del algoritmo DBSCAN. En conjuntos de datos simulados y reales, CedtBin logra mejores resultados de agrupamiento que los métodos convencionales y puede reconstruir más genomas, lo que indica que el método propuesto es efectivo.

Otros recursos que podrían interesarte

Temas Virtualpro