sBERT: Modelo de Aprendizaje Profundo Basado en Transformadores Eficiente en Parámetros para la Clasificación de Literatura Científica
Autores: Ahanger, Mohammad Munzir; Wani, Mohd Arif; Palade, Vasile
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
sBERT: Modelo de Aprendizaje Profundo Basado en Transformadores Eficiente en Parámetros para la Clasificación de Literatura Científica
Categoría
Gestión y administración
Subcategoría
Gestión del conocimiento
Palabras clave
Modelo basado en transformadores
Clasificación de literatura científica
Uso de memoria
Tiempo de entrenamiento
Tiempo de inferencia
Mecanismo de atención multi-cabeza
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Este artículo presenta un modelo basado en transformadores eficiente en parámetros, diseñado para la clasificación de literatura científica. Al optimizar la arquitectura del transformador, el modelo propuesto reduce significativamente el uso de memoria, el tiempo de entrenamiento, el tiempo de inferencia y la huella de carbono asociada con los modelos de lenguaje grandes. El enfoque propuesto se evalúa en comparación con varios modelos de aprendizaje profundo y demuestra un rendimiento superior en la clasificación de literatura científica. Experimentos exhaustivos realizados en conjuntos de datos de Web of Science, ArXiv, Nature, Springer y Wiley revelan que el mecanismo de atención multi-cabeza y las incrustaciones mejoradas del modelo propuesto contribuyen a su alta precisión y eficiencia, convirtiéndolo en una solución robusta para tareas de clasificación de texto.
Descripción
Este artículo presenta un modelo basado en transformadores eficiente en parámetros, diseñado para la clasificación de literatura científica. Al optimizar la arquitectura del transformador, el modelo propuesto reduce significativamente el uso de memoria, el tiempo de entrenamiento, el tiempo de inferencia y la huella de carbono asociada con los modelos de lenguaje grandes. El enfoque propuesto se evalúa en comparación con varios modelos de aprendizaje profundo y demuestra un rendimiento superior en la clasificación de literatura científica. Experimentos exhaustivos realizados en conjuntos de datos de Web of Science, ArXiv, Nature, Springer y Wiley revelan que el mecanismo de atención multi-cabeza y las incrustaciones mejoradas del modelo propuesto contribuyen a su alta precisión y eficiencia, convirtiéndolo en una solución robusta para tareas de clasificación de texto.