Diferente Reconocimiento de Características de Proteínas Dependiendo de Modelos de Aprendizaje Profundo: Un Estudio de Caso de la Aromática Descarboxilasa UbiD
Autores: Watanabe, Naoki; Kuriya, Yuki; Murata, Masahiro; Yamamoto, Masaki; Shimizu, Masayuki; Araki, Michihiro
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Diferente Reconocimiento de Características de Proteínas Dependiendo de Modelos de Aprendizaje Profundo: Un Estudio de Caso de la Aromática Descarboxilasa UbiD
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Biología
Palabras clave
Secuencias de proteínas
Modelos de aprendizaje profundo
Funciones de proteínas
Sitios de aminoácidos
Enzimas UbiD
Extracción de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 13
Citaciones: Sin citaciones
El número de secuencias de proteínas no anotadas está aumentando explosivamente debido a la tecnología de secuenciación del genoma. Una comprensión más completa de las funciones de las proteínas para la anotación de proteínas requiere el descubrimiento de nuevas características que no pueden ser capturadas por métodos convencionales. El aprendizaje profundo puede extraer características importantes de los datos de entrada y predecir funciones de proteínas basándose en esas características. Aquí, se analizan los vectores de características de proteínas generados por 3 modelos de aprendizaje profundo utilizando Gradientes Integrados para explorar características importantes de los sitios de aminoácidos. Como estudio de caso, se construyeron modelos de predicción y extracción de características para las enzimas UbiD utilizando estos modelos. Los residuos de aminoácidos importantes extraídos de los modelos eran diferentes de las estructuras secundarias, regiones conservadas y sitios activos de la información conocida de UbiD. Curiosamente, los diferentes residuos de aminoácidos dentro de las secuencias de UbiD se consideraron factores importantes dependiendo del tipo de modelos y secuencias. Los modelos Transformer se centraron en regiones más específicas que los otros modelos. Estos resultados sugieren que cada modelo de aprendizaje profundo comprende las características de las proteínas desde diferentes aspectos del conocimiento existente y tiene el potencial de descubrir nuevas leyes de las funciones de las proteínas. Este estudio ayudará a extraer nuevas características de proteínas para otras anotaciones de proteínas.
Descripción
El número de secuencias de proteínas no anotadas está aumentando explosivamente debido a la tecnología de secuenciación del genoma. Una comprensión más completa de las funciones de las proteínas para la anotación de proteínas requiere el descubrimiento de nuevas características que no pueden ser capturadas por métodos convencionales. El aprendizaje profundo puede extraer características importantes de los datos de entrada y predecir funciones de proteínas basándose en esas características. Aquí, se analizan los vectores de características de proteínas generados por 3 modelos de aprendizaje profundo utilizando Gradientes Integrados para explorar características importantes de los sitios de aminoácidos. Como estudio de caso, se construyeron modelos de predicción y extracción de características para las enzimas UbiD utilizando estos modelos. Los residuos de aminoácidos importantes extraídos de los modelos eran diferentes de las estructuras secundarias, regiones conservadas y sitios activos de la información conocida de UbiD. Curiosamente, los diferentes residuos de aminoácidos dentro de las secuencias de UbiD se consideraron factores importantes dependiendo del tipo de modelos y secuencias. Los modelos Transformer se centraron en regiones más específicas que los otros modelos. Estos resultados sugieren que cada modelo de aprendizaje profundo comprende las características de las proteínas desde diferentes aspectos del conocimiento existente y tiene el potencial de descubrir nuevas leyes de las funciones de las proteínas. Este estudio ayudará a extraer nuevas características de proteínas para otras anotaciones de proteínas.