Un algoritmo de clasificación jerárquica de múltiples etiquetas para la predicción de funciones génicas
Autores: Feng, Shou; Fu, Ping; Zheng, Wenbin
Idioma: Inglés
Editor: MDPI
Año: 2017
Acceso abierto
Artículo científico
2017
Un algoritmo de clasificación jerárquica de múltiples etiquetas para la predicción de funciones génicas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Función génica
Clasificación jerárquica de múltiples etiquetas
Ontología de Genes
Grafo acíclico dirigido
Tareas de clasificación binaria
Estructura jerárquica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
La predicción de la función génica es una tarea complicada y desafiante de clasificación jerárquica multi-etiqueta (HMC), en la que los genes pueden tener muchas funciones al mismo tiempo y estas funciones están organizadas en una jerarquía. Este artículo propuso un nuevo algoritmo de HMC para resolver este problema basado en la Ontología Génica (GO), cuya jerarquía es un grafo acíclico dirigido (DAG) y es más difícil de abordar. En el algoritmo propuesto, la tarea de HMC se convierte primero en un conjunto de tareas de clasificación binaria. Luego, se implementan dos medidas en el algoritmo para mejorar el rendimiento de HMC considerando la estructura jerárquica durante los procedimientos de aprendizaje. En primer lugar, se propone una política de selección de instancias negativas asociada con el enfoque SMOTE para aliviar el problema del conjunto de datos desequilibrado. En segundo lugar, se introduce un método de interacción de nodos para combinar los resultados de los clasificadores binarios. Puede garantizar que las predicciones sean consistentes con la restricción jerárquica. Los experimentos en ocho conjuntos de datos de levadura de referencia anotados por la Ontología Génica muestran el rendimiento prometedor del algoritmo propuesto en comparación con otros algoritmos de vanguardia.
Descripción
La predicción de la función génica es una tarea complicada y desafiante de clasificación jerárquica multi-etiqueta (HMC), en la que los genes pueden tener muchas funciones al mismo tiempo y estas funciones están organizadas en una jerarquía. Este artículo propuso un nuevo algoritmo de HMC para resolver este problema basado en la Ontología Génica (GO), cuya jerarquía es un grafo acíclico dirigido (DAG) y es más difícil de abordar. En el algoritmo propuesto, la tarea de HMC se convierte primero en un conjunto de tareas de clasificación binaria. Luego, se implementan dos medidas en el algoritmo para mejorar el rendimiento de HMC considerando la estructura jerárquica durante los procedimientos de aprendizaje. En primer lugar, se propone una política de selección de instancias negativas asociada con el enfoque SMOTE para aliviar el problema del conjunto de datos desequilibrado. En segundo lugar, se introduce un método de interacción de nodos para combinar los resultados de los clasificadores binarios. Puede garantizar que las predicciones sean consistentes con la restricción jerárquica. Los experimentos en ocho conjuntos de datos de levadura de referencia anotados por la Ontología Génica muestran el rendimiento prometedor del algoritmo propuesto en comparación con otros algoritmos de vanguardia.