Agrupación de contigs metagenómicos utilizando incrustaciones de contigs y frecuencia de tetranucleótidos descompuesta
Autores: Fu, Long; Shi, Jiabin; Huang, Baohua
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Agrupación de contigs metagenómicos utilizando incrustaciones de contigs y frecuencia de tetranucleótidos descompuesta
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Biología
Palabras clave
Binned metagenómico
Incrustación de contigs
Frecuencia de tetranucleótidos
Algoritmo de agrupamiento
Algoritmo DBSCAN
CedtBin
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
El agrupamiento metagenómico es un paso crucial en la investigación metagenómica. Puede agregar las secuencias genómicas que pertenecen a la misma especie microbiana en contenedores independientes. La mayoría de los métodos existentes ignoran la información semántica de los contigs y carecen de un procesamiento efectivo de la frecuencia de tetranucleótidos, lo que resulta en información de características insuficiente y compleja extraída para el agrupamiento y en malos resultados de agrupamiento. Para abordar los problemas mencionados, proponemos CedtBin, un método de agrupamiento metagenómico basado en la incrustación de contigs y la frecuencia de tetranucleótidos descompuesta. Primero, se utiliza el modelo BERT mejorado para aprender los contigs y obtener su representación de incrustación. En segundo lugar, las frecuencias de tetranucleótidos se descomponen utilizando un algoritmo de factorización de matriz no negativa (NMF). Después de eso, las dos características se combinan y se introducen en el algoritmo de agrupamiento para el agrupamiento. Considerando la sensibilidad del algoritmo de agrupamiento DBSCAN a los parámetros de entrada, para resolver las desventajas de la entrada manual de parámetros, también proponemos un algoritmo Annoy-DBSCAN que puede determinar de manera adaptativa los parámetros del algoritmo DBSCAN. Este algoritmo utiliza Aproximación de Vecinos Más Cercanos Oh Yeah (Annoy) y lo combina con una estrategia de búsqueda en cuadrícula para encontrar los parámetros óptimos del algoritmo DBSCAN. En conjuntos de datos simulados y reales, CedtBin logra mejores resultados de agrupamiento que los métodos convencionales y puede reconstruir más genomas, lo que indica que el método propuesto es efectivo.
Descripción
El agrupamiento metagenómico es un paso crucial en la investigación metagenómica. Puede agregar las secuencias genómicas que pertenecen a la misma especie microbiana en contenedores independientes. La mayoría de los métodos existentes ignoran la información semántica de los contigs y carecen de un procesamiento efectivo de la frecuencia de tetranucleótidos, lo que resulta en información de características insuficiente y compleja extraída para el agrupamiento y en malos resultados de agrupamiento. Para abordar los problemas mencionados, proponemos CedtBin, un método de agrupamiento metagenómico basado en la incrustación de contigs y la frecuencia de tetranucleótidos descompuesta. Primero, se utiliza el modelo BERT mejorado para aprender los contigs y obtener su representación de incrustación. En segundo lugar, las frecuencias de tetranucleótidos se descomponen utilizando un algoritmo de factorización de matriz no negativa (NMF). Después de eso, las dos características se combinan y se introducen en el algoritmo de agrupamiento para el agrupamiento. Considerando la sensibilidad del algoritmo de agrupamiento DBSCAN a los parámetros de entrada, para resolver las desventajas de la entrada manual de parámetros, también proponemos un algoritmo Annoy-DBSCAN que puede determinar de manera adaptativa los parámetros del algoritmo DBSCAN. Este algoritmo utiliza Aproximación de Vecinos Más Cercanos Oh Yeah (Annoy) y lo combina con una estrategia de búsqueda en cuadrícula para encontrar los parámetros óptimos del algoritmo DBSCAN. En conjuntos de datos simulados y reales, CedtBin logra mejores resultados de agrupamiento que los métodos convencionales y puede reconstruir más genomas, lo que indica que el método propuesto es efectivo.