Combinando coincidencia semántica, incrustaciones de palabras, transformadores y LLM para mejorar la clasificación de documentos: aplicación en revisiones sistemáticas
Autores: Mitrov, Goran; Stanoev, Boris; Gievska, Sonja; Mirceva, Georgina; Zdravevski, Eftim
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Combinando coincidencia semántica, incrustaciones de palabras, transformadores y LLM para mejorar la clasificación de documentos: aplicación en revisiones sistemáticas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Publicaciones científicas
Revisiones sistemáticas
Revisiones rápidas
Revisiones exploratorias
Procesamiento de lenguaje natural
Clasificación de documentos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
El rápido aumento en las publicaciones científicas ha hecho que sea desafiante mantenerse al día con los últimos avances. Llevar a cabo revisiones sistemáticas utilizando métodos tradicionales es tanto demorado como difícil. Para abordar esto, se han introducido nuevos formatos de revisión como las revisiones rápidas y de alcance, reflejando una necesidad urgente de recuperación eficiente de información. Este desafío se extiende más allá de la academia a muchas organizaciones donde se deben revisar numerosos documentos en relación con consultas específicas de los usuarios. Este artículo se centra en mejorar la clasificación de documentos para mejorar la recuperación de artículos relevantes, reduciendo así el tiempo y esfuerzo requerido por los investigadores. Al aplicar una variedad de técnicas de procesamiento de lenguaje natural (NLP), incluyendo coincidencia basada en reglas, análisis de texto estadístico, incrustaciones de palabras y enfoques basados en transformadores y LLM como Mistral LLM, evaluamos las similitudes del artículo con las entradas específicas del usuario y los priorizamos según su relevancia. Proponemos una metodología novedosa, Coincidencia Semántica Ponderada (WSM) + MiniLM, que combina las fortalezas de los diferentes métodos. Para la validación, empleamos métricas globales como precisión en K, recuperación en K, rango promedio, rango medio y métricas de comparación por pares, incluyendo conteo de rangos superiores, diferencia de rango promedio y diferencia de rango medio. Nuestro algoritmo propuesto logra un rendimiento óptimo, con una recuperación promedio en 1000 de 95% y un rango medio promedio de 185 para los artículos seleccionados en los cinco conjuntos de datos evaluados. Estos hallazgos ofrecen resultados prometedores al señalar los artículos relevantes y reducir el trabajo manual.
Descripción
El rápido aumento en las publicaciones científicas ha hecho que sea desafiante mantenerse al día con los últimos avances. Llevar a cabo revisiones sistemáticas utilizando métodos tradicionales es tanto demorado como difícil. Para abordar esto, se han introducido nuevos formatos de revisión como las revisiones rápidas y de alcance, reflejando una necesidad urgente de recuperación eficiente de información. Este desafío se extiende más allá de la academia a muchas organizaciones donde se deben revisar numerosos documentos en relación con consultas específicas de los usuarios. Este artículo se centra en mejorar la clasificación de documentos para mejorar la recuperación de artículos relevantes, reduciendo así el tiempo y esfuerzo requerido por los investigadores. Al aplicar una variedad de técnicas de procesamiento de lenguaje natural (NLP), incluyendo coincidencia basada en reglas, análisis de texto estadístico, incrustaciones de palabras y enfoques basados en transformadores y LLM como Mistral LLM, evaluamos las similitudes del artículo con las entradas específicas del usuario y los priorizamos según su relevancia. Proponemos una metodología novedosa, Coincidencia Semántica Ponderada (WSM) + MiniLM, que combina las fortalezas de los diferentes métodos. Para la validación, empleamos métricas globales como precisión en K, recuperación en K, rango promedio, rango medio y métricas de comparación por pares, incluyendo conteo de rangos superiores, diferencia de rango promedio y diferencia de rango medio. Nuestro algoritmo propuesto logra un rendimiento óptimo, con una recuperación promedio en 1000 de 95% y un rango medio promedio de 185 para los artículos seleccionados en los cinco conjuntos de datos evaluados. Estos hallazgos ofrecen resultados prometedores al señalar los artículos relevantes y reducir el trabajo manual.