Aprendizaje conjunto de representación para recuperación y anotación de conjuntos de intervalos genómicos
Autores: Gharavi, Erfaneh; LeRoy, Nathan J.; Zheng, Guangtao; Zhang, Aidong; Brown, Donald E.; Sheffield, Nathan C.
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendizaje conjunto de representación para recuperación y anotación de conjuntos de intervalos genómicos
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Datos de intervalos genómicos
Sistemas de búsqueda
Aprendizaje de representación
Etiquetas de metadatos
Conjuntos de regiones
Recuperación de información
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
A medida que aumentan los datos disponibles de intervalos genómicos, necesitamos sistemas rápidos para buscarlos. Un enfoque común es la simple coincidencia de cadenas para comparar un término de búsqueda con metadatos, pero esto se ve limitado por anotaciones incompletas o inexactas. Una alternativa es comparar datos directamente a través del análisis de superposición de regiones genómicas, pero este enfoque conlleva desafíos como la dispersión, la alta dimensionalidad y el gasto computacional. Necesitamos métodos novedosos para consultar de manera rápida y flexible bases de datos de intervalos genómicos grandes y desordenadas. Aquí, desarrollamos un sistema de búsqueda de intervalos genómicos utilizando el aprendizaje de representaciones. Entrenamos incrustaciones numéricas para una colección de conjuntos de regiones simultáneamente con sus etiquetas de metadatos, capturando la similitud entre conjuntos de regiones y sus metadatos en un espacio de baja dimensionalidad. Utilizando estas co-incrustaciones aprendidas, desarrollamos un sistema que resuelve tres tareas relacionadas de recuperación de información utilizando cálculos de distancia de incrustación: recuperar conjuntos de regiones relacionados con una cadena de consulta de usuario, sugerir nuevas etiquetas para conjuntos de regiones de la base de datos y recuperar conjuntos de regiones de la base de datos similares a un conjunto de regiones de consulta. Evaluamos estos casos de uso y mostramos que las representaciones conjuntamente aprendidas de conjuntos de regiones y metadatos son un enfoque prometedor para la recuperación de información de regiones genómicas rápida, flexible y precisa.
Descripción
A medida que aumentan los datos disponibles de intervalos genómicos, necesitamos sistemas rápidos para buscarlos. Un enfoque común es la simple coincidencia de cadenas para comparar un término de búsqueda con metadatos, pero esto se ve limitado por anotaciones incompletas o inexactas. Una alternativa es comparar datos directamente a través del análisis de superposición de regiones genómicas, pero este enfoque conlleva desafíos como la dispersión, la alta dimensionalidad y el gasto computacional. Necesitamos métodos novedosos para consultar de manera rápida y flexible bases de datos de intervalos genómicos grandes y desordenadas. Aquí, desarrollamos un sistema de búsqueda de intervalos genómicos utilizando el aprendizaje de representaciones. Entrenamos incrustaciones numéricas para una colección de conjuntos de regiones simultáneamente con sus etiquetas de metadatos, capturando la similitud entre conjuntos de regiones y sus metadatos en un espacio de baja dimensionalidad. Utilizando estas co-incrustaciones aprendidas, desarrollamos un sistema que resuelve tres tareas relacionadas de recuperación de información utilizando cálculos de distancia de incrustación: recuperar conjuntos de regiones relacionados con una cadena de consulta de usuario, sugerir nuevas etiquetas para conjuntos de regiones de la base de datos y recuperar conjuntos de regiones de la base de datos similares a un conjunto de regiones de consulta. Evaluamos estos casos de uso y mostramos que las representaciones conjuntamente aprendidas de conjuntos de regiones y metadatos son un enfoque prometedor para la recuperación de información de regiones genómicas rápida, flexible y precisa.