logo móvil
Contáctanos

Clasificación de interacciones proteína-DNA/RNA utilizando codificación basada en interpolación y resaltando propiedades fisicoquímicas a través del aprendizaje automático

Autores: Cabello-Lima, Jesús Guadalupe; Zapata-Morín, Patricio Adrián; Espinoza-Rodríguez, Juan Horacio

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Clasificación de interacciones proteína-DNA/RNA utilizando codificación basada en interpolación y resaltando propiedades fisicoquímicas a través del aprendizaje automático


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Proteína-ADN
Proteína-ARN
Aprendizaje automático
Propiedades fisicoquímicas
Interacciones de ácidos nucleicos
Predicción de interacciones de proteínas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las interacciones proteína-ADN y proteína-ARN son centrales para la regulación genética y las enfermedades genéticas, sin embargo, la identificación experimental sigue siendo costosa y compleja. El aprendizaje automático (ML) ofrece una alternativa eficiente, aunque persisten desafíos en la representación de secuencias de proteínas debido a la variabilidad de residuos, problemas de dimensionalidad y el riesgo de perder el contexto biológico. Los enfoques tradicionales, como el conteo de k-mers o las codificaciones de redes neuronales, proporcionan representaciones de secuencias estandarizadas, pero a menudo requieren altos recursos computacionales y pueden oscurecer la información funcional. Para abordar estas limitaciones, se introduce un nuevo método de codificación basado en la interpolación de propiedades fisicoquímicas (PCPs). Los valores discretos de PCPs se transforman en funciones continuas utilizando un realce logarítmico, destacando los residuos que más contribuyen a las interacciones con ácidos nucleicos, mientras se preserva la relevancia biológica a través de longitudes de secuencia variables. Las características estadísticas extraídas de los espectros resultantes a través de Tsfresh se utilizan luego para la clasificación binaria de proteínas que se unen a ADN y ARN. Se evaluaron seis clasificadores, y el método propuesto logró hasta un 99% de precisión, exactitud, recuperación y puntuación F1 cuando se aplicó el resaltado de aminoácidos, en comparación con el 66% sin resaltado. La comparación con enfoques de k-mer y redes neuronales confirmó una eficiencia y fiabilidad superiores, subrayando el potencial de este método para la predicción de interacciones proteicas. Nuestro marco puede extenderse a problemas multicategoría y aplicarse al estudio de variantes de proteínas, ofreciendo una herramienta escalable para una predicción más amplia de interacciones proteicas.

Otros recursos que podrían interesarte

Temas Virtualpro