logo móvil
Contáctanos

Combinando coincidencia semántica, incrustaciones de palabras, transformadores y LLM para mejorar la clasificación de documentos: aplicación en revisiones sistemáticas

Autores: Mitrov, Goran; Stanoev, Boris; Gievska, Sonja; Mirceva, Georgina; Zdravevski, Eftim

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Combinando coincidencia semántica, incrustaciones de palabras, transformadores y LLM para mejorar la clasificación de documentos: aplicación en revisiones sistemáticas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Publicaciones científicas
Revisiones sistemáticas
Revisiones rápidas
Revisiones exploratorias
Procesamiento de lenguaje natural
Clasificación de documentos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
El rápido aumento en las publicaciones científicas ha hecho que sea desafiante mantenerse al día con los últimos avances. Llevar a cabo revisiones sistemáticas utilizando métodos tradicionales es tanto demorado como difícil. Para abordar esto, se han introducido nuevos formatos de revisión como las revisiones rápidas y de alcance, reflejando una necesidad urgente de recuperación eficiente de información. Este desafío se extiende más allá de la academia a muchas organizaciones donde se deben revisar numerosos documentos en relación con consultas específicas de los usuarios. Este artículo se centra en mejorar la clasificación de documentos para mejorar la recuperación de artículos relevantes, reduciendo así el tiempo y esfuerzo requerido por los investigadores. Al aplicar una variedad de técnicas de procesamiento de lenguaje natural (NLP), incluyendo coincidencia basada en reglas, análisis de texto estadístico, incrustaciones de palabras y enfoques basados en transformadores y LLM como Mistral LLM, evaluamos las similitudes del artículo con las entradas específicas del usuario y los priorizamos según su relevancia. Proponemos una metodología novedosa, Coincidencia Semántica Ponderada (WSM) + MiniLM, que combina las fortalezas de los diferentes métodos. Para la validación, empleamos métricas globales como precisión en K, recuperación en K, rango promedio, rango medio y métricas de comparación por pares, incluyendo conteo de rangos superiores, diferencia de rango promedio y diferencia de rango medio. Nuestro algoritmo propuesto logra un rendimiento óptimo, con una recuperación promedio en 1000 de 95% y un rango medio promedio de 185 para los artículos seleccionados en los cinco conjuntos de datos evaluados. Estos hallazgos ofrecen resultados prometedores al señalar los artículos relevantes y reducir el trabajo manual.

Otros recursos que podrían interesarte

Temas Virtualpro