Machine learning basado en la predicción de genes huérfanos y análisis de diferentes características híbridas de plantas monocotiledóneas y eudicotiledóneas
Autores: Gao, Qijuan; Zhang, Xiaodan; Yan, Hanwei; Jin, Xiu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Machine learning basado en la predicción de genes huérfanos y análisis de diferentes características híbridas de plantas monocotiledóneas y eudicotiledóneas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Genes huérfanos
OGs
Angiospermas
XGBoost-A2OGs
Vías bioquímicas
Tensiones ambientales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
Los genes huérfanos (OGs) pueden evolucionar a partir de secuencias no codificantes o derivarse de material codificante más antiguo. Algunas partes de los OGs están presentes en todos los genomas secuenciados, participando en las vías bioquímicas y fisiológicas de muchas especies, mientras que muchos de ellos pueden estar asociados con la respuesta a tensiones ambientales y rasgos o patrones regulatorios específicos de especies. Sin embargo, identificar los OGs es una tarea laboriosa y que consume tiempo. Este artículo presenta un predictor automatizado, XGBoost-A2OGs (identificación de OGs para angiospermas basada en XGBoost), utilizado para identificar OGs para siete especies de angiospermas basado en características híbridas y XGBoost. La precisión y la exactitud del modelo propuesto basado en validación cruzada de cinco pliegues y pruebas independientes alcanzaron 0.90 y 0.91, respectivamente, superando a otros clasificadores en validación entre especies a través de otros modelos, a saber, Random Forest, AdaBoost, GBDT y SVM. Además, al analizar y subdividir las características híbridas en cinco conjuntos, se demostró que diferentes conjuntos de características híbridas influyeron en el rendimiento de predicción de OGs que involucran a los grupos de eudicotiledóneas y monocotiledóneas. Finalmente, la prueba de conjuntos de datos empíricos a pequeña escala de cada especie por separado basados en características híbridas óptimas reveló que el modelo propuesto funcionó mejor para los grupos de eudicotiledóneas que para los grupos de monocotiledóneas.
Descripción
Los genes huérfanos (OGs) pueden evolucionar a partir de secuencias no codificantes o derivarse de material codificante más antiguo. Algunas partes de los OGs están presentes en todos los genomas secuenciados, participando en las vías bioquímicas y fisiológicas de muchas especies, mientras que muchos de ellos pueden estar asociados con la respuesta a tensiones ambientales y rasgos o patrones regulatorios específicos de especies. Sin embargo, identificar los OGs es una tarea laboriosa y que consume tiempo. Este artículo presenta un predictor automatizado, XGBoost-A2OGs (identificación de OGs para angiospermas basada en XGBoost), utilizado para identificar OGs para siete especies de angiospermas basado en características híbridas y XGBoost. La precisión y la exactitud del modelo propuesto basado en validación cruzada de cinco pliegues y pruebas independientes alcanzaron 0.90 y 0.91, respectivamente, superando a otros clasificadores en validación entre especies a través de otros modelos, a saber, Random Forest, AdaBoost, GBDT y SVM. Además, al analizar y subdividir las características híbridas en cinco conjuntos, se demostró que diferentes conjuntos de características híbridas influyeron en el rendimiento de predicción de OGs que involucran a los grupos de eudicotiledóneas y monocotiledóneas. Finalmente, la prueba de conjuntos de datos empíricos a pequeña escala de cada especie por separado basados en características híbridas óptimas reveló que el modelo propuesto funcionó mejor para los grupos de eudicotiledóneas que para los grupos de monocotiledóneas.