Mejora de la clasificación del genoma viral utilizando modelos de lenguaje grandes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejora de la clasificación del genoma viral utilizando modelos de lenguaje grandes

Autores: Gunasekaran, Hemalatha; Wilfred Blessing, Nesaian Reginal; Sathic, Umar; Husain, Mohammad Shahid

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Mejora de la clasificación del genoma viral utilizando modelos de lenguaje grandes

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Secuencias genómicas

Brotes

Modelos de aprendizaje automático

Random Forest

Redes Neuronales Convolucionales

Procesamiento del Lenguaje Natural

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

La clasificación de secuencias genómicas es un área crucial de investigación en el campo de la virología. Esto se debe al creciente número de brotes a los que nos hemos enfrentado en tiempos recientes. Tenemos un vasto repositorio de secuencias genómicas de diversas especies, incluyendo humanos, animales, plantas, bacterias y virus, que tienden a mutar y formar nuevas variantes o cepas. En el ámbito del aprendizaje automático, se emplean varios modelos para la clasificación de secuencias genómicas. Entre estos se encuentran algoritmos tradicionales como Random Forest (RF), K-vecinos más cercanos (KNN), Árbol de decisión (DT) y Naive Bayes (NB), cada uno ofreciendo ventajas únicas en el manejo de datos genéticos. Además, se utilizan modelos de aprendizaje profundo como Redes Neuronales Convolucionales (CNN), redes de Memoria a Corto y Largo Plazo (LSTM) y redes LSTM Bidireccionales por sus capacidades robustas en capturar patrones y dependencias complejas dentro de secuencias genómicas. En este estudio, exploramos la aplicación de técnicas de Procesamiento de Lenguaje Natural (NLP) para clasificar las secuencias genómicas. El enfoque de nuestra investigación implica el uso de modelos de lenguaje grandes avanzados (LLMs) como DNABERT, DNAGPT y GENA LM, que están ajustados específicamente en el lenguaje del ADN. En esta investigación, tras un análisis detallado, encontramos que DNAGPT logró una precisión del 96%, superando el rendimiento de los modelos de aprendizaje automático y aprendizaje profundo de última generación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro