Mejora de la clasificación del genoma viral utilizando modelos de lenguaje grandes
Autores: Gunasekaran, Hemalatha; Wilfred Blessing, Nesaian Reginal; Sathic, Umar; Husain, Mohammad Shahid
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Mejora de la clasificación del genoma viral utilizando modelos de lenguaje grandes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Secuencias genómicas
Brotes
Modelos de aprendizaje automático
Random Forest
Redes Neuronales Convolucionales
Procesamiento del Lenguaje Natural
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La clasificación de secuencias genómicas es un área crucial de investigación en el campo de la virología. Esto se debe al creciente número de brotes a los que nos hemos enfrentado en tiempos recientes. Tenemos un vasto repositorio de secuencias genómicas de diversas especies, incluyendo humanos, animales, plantas, bacterias y virus, que tienden a mutar y formar nuevas variantes o cepas. En el ámbito del aprendizaje automático, se emplean varios modelos para la clasificación de secuencias genómicas. Entre estos se encuentran algoritmos tradicionales como Random Forest (RF), K-vecinos más cercanos (KNN), Árbol de decisión (DT) y Naive Bayes (NB), cada uno ofreciendo ventajas únicas en el manejo de datos genéticos. Además, se utilizan modelos de aprendizaje profundo como Redes Neuronales Convolucionales (CNN), redes de Memoria a Corto y Largo Plazo (LSTM) y redes LSTM Bidireccionales por sus capacidades robustas en capturar patrones y dependencias complejas dentro de secuencias genómicas. En este estudio, exploramos la aplicación de técnicas de Procesamiento de Lenguaje Natural (NLP) para clasificar las secuencias genómicas. El enfoque de nuestra investigación implica el uso de modelos de lenguaje grandes avanzados (LLMs) como DNABERT, DNAGPT y GENA LM, que están ajustados específicamente en el lenguaje del ADN. En esta investigación, tras un análisis detallado, encontramos que DNAGPT logró una precisión del 96%, superando el rendimiento de los modelos de aprendizaje automático y aprendizaje profundo de última generación.
Descripción
La clasificación de secuencias genómicas es un área crucial de investigación en el campo de la virología. Esto se debe al creciente número de brotes a los que nos hemos enfrentado en tiempos recientes. Tenemos un vasto repositorio de secuencias genómicas de diversas especies, incluyendo humanos, animales, plantas, bacterias y virus, que tienden a mutar y formar nuevas variantes o cepas. En el ámbito del aprendizaje automático, se emplean varios modelos para la clasificación de secuencias genómicas. Entre estos se encuentran algoritmos tradicionales como Random Forest (RF), K-vecinos más cercanos (KNN), Árbol de decisión (DT) y Naive Bayes (NB), cada uno ofreciendo ventajas únicas en el manejo de datos genéticos. Además, se utilizan modelos de aprendizaje profundo como Redes Neuronales Convolucionales (CNN), redes de Memoria a Corto y Largo Plazo (LSTM) y redes LSTM Bidireccionales por sus capacidades robustas en capturar patrones y dependencias complejas dentro de secuencias genómicas. En este estudio, exploramos la aplicación de técnicas de Procesamiento de Lenguaje Natural (NLP) para clasificar las secuencias genómicas. El enfoque de nuestra investigación implica el uso de modelos de lenguaje grandes avanzados (LLMs) como DNABERT, DNAGPT y GENA LM, que están ajustados específicamente en el lenguaje del ADN. En esta investigación, tras un análisis detallado, encontramos que DNAGPT logró una precisión del 96%, superando el rendimiento de los modelos de aprendizaje automático y aprendizaje profundo de última generación.