Clasificación de interacciones proteína-DNA/RNA utilizando codificación basada en interpolación y resaltando propiedades fisicoquímicas a través del aprendizaje automático
Autores: Cabello-Lima, Jesús Guadalupe; Zapata-Morín, Patricio Adrián; Espinoza-Rodríguez, Juan Horacio
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Clasificación de interacciones proteína-DNA/RNA utilizando codificación basada en interpolación y resaltando propiedades fisicoquímicas a través del aprendizaje automático
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Proteína-ADN
Proteína-ARN
Aprendizaje automático
Propiedades fisicoquímicas
Interacciones de ácidos nucleicos
Predicción de interacciones de proteínas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las interacciones proteína-ADN y proteína-ARN son centrales para la regulación genética y las enfermedades genéticas, sin embargo, la identificación experimental sigue siendo costosa y compleja. El aprendizaje automático (ML) ofrece una alternativa eficiente, aunque persisten desafíos en la representación de secuencias de proteínas debido a la variabilidad de residuos, problemas de dimensionalidad y el riesgo de perder el contexto biológico. Los enfoques tradicionales, como el conteo de k-mers o las codificaciones de redes neuronales, proporcionan representaciones de secuencias estandarizadas, pero a menudo requieren altos recursos computacionales y pueden oscurecer la información funcional. Para abordar estas limitaciones, se introduce un nuevo método de codificación basado en la interpolación de propiedades fisicoquímicas (PCPs). Los valores discretos de PCPs se transforman en funciones continuas utilizando un realce logarítmico, destacando los residuos que más contribuyen a las interacciones con ácidos nucleicos, mientras se preserva la relevancia biológica a través de longitudes de secuencia variables. Las características estadísticas extraídas de los espectros resultantes a través de Tsfresh se utilizan luego para la clasificación binaria de proteínas que se unen a ADN y ARN. Se evaluaron seis clasificadores, y el método propuesto logró hasta un 99% de precisión, exactitud, recuperación y puntuación F1 cuando se aplicó el resaltado de aminoácidos, en comparación con el 66% sin resaltado. La comparación con enfoques de k-mer y redes neuronales confirmó una eficiencia y fiabilidad superiores, subrayando el potencial de este método para la predicción de interacciones proteicas. Nuestro marco puede extenderse a problemas multicategoría y aplicarse al estudio de variantes de proteínas, ofreciendo una herramienta escalable para una predicción más amplia de interacciones proteicas.
Descripción
Las interacciones proteína-ADN y proteína-ARN son centrales para la regulación genética y las enfermedades genéticas, sin embargo, la identificación experimental sigue siendo costosa y compleja. El aprendizaje automático (ML) ofrece una alternativa eficiente, aunque persisten desafíos en la representación de secuencias de proteínas debido a la variabilidad de residuos, problemas de dimensionalidad y el riesgo de perder el contexto biológico. Los enfoques tradicionales, como el conteo de k-mers o las codificaciones de redes neuronales, proporcionan representaciones de secuencias estandarizadas, pero a menudo requieren altos recursos computacionales y pueden oscurecer la información funcional. Para abordar estas limitaciones, se introduce un nuevo método de codificación basado en la interpolación de propiedades fisicoquímicas (PCPs). Los valores discretos de PCPs se transforman en funciones continuas utilizando un realce logarítmico, destacando los residuos que más contribuyen a las interacciones con ácidos nucleicos, mientras se preserva la relevancia biológica a través de longitudes de secuencia variables. Las características estadísticas extraídas de los espectros resultantes a través de Tsfresh se utilizan luego para la clasificación binaria de proteínas que se unen a ADN y ARN. Se evaluaron seis clasificadores, y el método propuesto logró hasta un 99% de precisión, exactitud, recuperación y puntuación F1 cuando se aplicó el resaltado de aminoácidos, en comparación con el 66% sin resaltado. La comparación con enfoques de k-mer y redes neuronales confirmó una eficiencia y fiabilidad superiores, subrayando el potencial de este método para la predicción de interacciones proteicas. Nuestro marco puede extenderse a problemas multicategoría y aplicarse al estudio de variantes de proteínas, ofreciendo una herramienta escalable para una predicción más amplia de interacciones proteicas.