Capturando la estructura y función del dominio de proteínas utilizando auto-supervisión en arquitecturas de dominio
Autores: Melidis, Damianos P.; Nejdl, Wolfgang
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Capturando la estructura y función del dominio de proteínas utilizando auto-supervisión en arquitecturas de dominio
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Propiedades biológicas
Incrustaciones de secuencias de proteínas
Metadatos biológicos
Vector de incrustación aprendido
Dominios de proteínas
Características biológicas distintivas
Estructura
Enzimático
Función molecular
Dom2vec
Evaluación intrínseca
Conocimiento de biología
Arquitectura de dominio
Tareas de predicción de proteínas
Incrustaciones de secuencias de última generación
Toxina
Predicción de función enzimática
Predicción de ubicación celular
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Predecir propiedades biológicas de proteínas no vistas se ha demostrado que mejora con el uso de incrustaciones de secuencias de proteínas. Sin embargo, estas incrustaciones de secuencias tienen la salvedad de que los metadatos biológicos no existen para cada aminoácido, con el fin de medir la calidad de cada vector de incrustación único aprendido por separado. Por lo tanto, las incrustaciones de secuencias actuales no pueden ser evaluadas intrínsecamente en cuanto al grado de información biológica capturada de manera cuantitativa. Abordamos esta desventaja mediante nuestro enfoque, dom2vec, aprendiendo representaciones vectoriales para dominios de proteínas y no para cada base de aminoácido, ya que los metadatos biológicos existen para cada dominio por separado. Para realizar una evaluación intrínseca cuantitativa confiable en términos de conocimiento biológico, seleccionamos los metadatos relacionados con las características biológicas más distintivas de un dominio, que son su estructura, función enzimática y molecular. Especialmente, dom2vec obtiene un nivel adecuado de rendimiento en la evaluación intrínseca, por lo tanto, podemos establecer una relación entre las características lingüísticas locales en lenguajes naturales y la información de estructura y función del dominio en arquitecturas de dominio. Además, demostramos la aplicabilidad de dom2vec en tareas de predicción de proteínas, comparándola con incrustaciones de secuencias de vanguardia en tres tareas posteriores. Mostramos que dom2vec supera a las incrustaciones de secuencias para la predicción de funciones tóxicas y enzimáticas y es comparable con las incrustaciones de secuencias en la predicción de la ubicación celular.
Descripción
Predecir propiedades biológicas de proteínas no vistas se ha demostrado que mejora con el uso de incrustaciones de secuencias de proteínas. Sin embargo, estas incrustaciones de secuencias tienen la salvedad de que los metadatos biológicos no existen para cada aminoácido, con el fin de medir la calidad de cada vector de incrustación único aprendido por separado. Por lo tanto, las incrustaciones de secuencias actuales no pueden ser evaluadas intrínsecamente en cuanto al grado de información biológica capturada de manera cuantitativa. Abordamos esta desventaja mediante nuestro enfoque, dom2vec, aprendiendo representaciones vectoriales para dominios de proteínas y no para cada base de aminoácido, ya que los metadatos biológicos existen para cada dominio por separado. Para realizar una evaluación intrínseca cuantitativa confiable en términos de conocimiento biológico, seleccionamos los metadatos relacionados con las características biológicas más distintivas de un dominio, que son su estructura, función enzimática y molecular. Especialmente, dom2vec obtiene un nivel adecuado de rendimiento en la evaluación intrínseca, por lo tanto, podemos establecer una relación entre las características lingüísticas locales en lenguajes naturales y la información de estructura y función del dominio en arquitecturas de dominio. Además, demostramos la aplicabilidad de dom2vec en tareas de predicción de proteínas, comparándola con incrustaciones de secuencias de vanguardia en tres tareas posteriores. Mostramos que dom2vec supera a las incrustaciones de secuencias para la predicción de funciones tóxicas y enzimáticas y es comparable con las incrustaciones de secuencias en la predicción de la ubicación celular.