logo móvil
Contáctanos

Mejora de la clasificación del genoma viral utilizando modelos de lenguaje grandes

Autores: Gunasekaran, Hemalatha; Wilfred Blessing, Nesaian Reginal; Sathic, Umar; Husain, Mohammad Shahid

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Mejora de la clasificación del genoma viral utilizando modelos de lenguaje grandes


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Secuencias genómicas
Brotes
Modelos de aprendizaje automático
Random Forest
Redes Neuronales Convolucionales
Procesamiento del Lenguaje Natural

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
La clasificación de secuencias genómicas es un área crucial de investigación en el campo de la virología. Esto se debe al creciente número de brotes a los que nos hemos enfrentado en tiempos recientes. Tenemos un vasto repositorio de secuencias genómicas de diversas especies, incluyendo humanos, animales, plantas, bacterias y virus, que tienden a mutar y formar nuevas variantes o cepas. En el ámbito del aprendizaje automático, se emplean varios modelos para la clasificación de secuencias genómicas. Entre estos se encuentran algoritmos tradicionales como Random Forest (RF), K-vecinos más cercanos (KNN), Árbol de decisión (DT) y Naive Bayes (NB), cada uno ofreciendo ventajas únicas en el manejo de datos genéticos. Además, se utilizan modelos de aprendizaje profundo como Redes Neuronales Convolucionales (CNN), redes de Memoria a Corto y Largo Plazo (LSTM) y redes LSTM Bidireccionales por sus capacidades robustas en capturar patrones y dependencias complejas dentro de secuencias genómicas. En este estudio, exploramos la aplicación de técnicas de Procesamiento de Lenguaje Natural (NLP) para clasificar las secuencias genómicas. El enfoque de nuestra investigación implica el uso de modelos de lenguaje grandes avanzados (LLMs) como DNABERT, DNAGPT y GENA LM, que están ajustados específicamente en el lenguaje del ADN. En esta investigación, tras un análisis detallado, encontramos que DNAGPT logró una precisión del 96%, superando el rendimiento de los modelos de aprendizaje automático y aprendizaje profundo de última generación.

Otros recursos que podrían interesarte

Temas Virtualpro