Desempeño de 4 Modelos de Transformadores de Oraciones Preentrenados en la Consulta Semántica de un Conjunto de Datos de Revisión Sistemática sobre Periimplantitis
Autores: Galli, Carlo; Donos, Nikolaos; Calciolari, Elena
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Desempeño de 4 Modelos de Transformadores de Oraciones Preentrenados en la Consulta Semántica de un Conjunto de Datos de Revisión Sistemática sobre Periimplantitis
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Revisiones sistemáticas
Inteligencia artificial
Transformadores de oraciones
Representaciones semánticas
Modelos preentrenados
Similitud semántica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las revisiones sistemáticas son engorrosas pero esenciales para el proceso epistémico de la ciencia médica. Sin embargo, encontrar informes significativos es una tarea desalentadora porque el gran volumen de literatura publicada hace que la revisión manual de bases de datos consuma mucho tiempo. El uso de la inteligencia artificial podría hacer que el procesamiento de la literatura sea más rápido y eficiente. Los transformadores de oraciones son algoritmos innovadores que pueden generar representaciones semánticas ricas de documentos de texto y permitir consultas semánticas. En el presente informe, comparamos cuatro modelos de transformadores de oraciones preentrenados disponibles de forma gratuita (all-MiniLM-L6-v2, all-MiniLM-L12-v2, all-mpnet-base-v2 y All-distilroberta-v1) en una muestra de conveniencia de 6110 artículos de una revisión sistemática publicada. Los autores de esta revisión revisaron manualmente el conjunto de datos e identificaron 24 artículos objetivo que abordaban las Preguntas Enfocadas (FQ) de la revisión. Aplicamos los cuatro transformadores de oraciones al conjunto de datos y, utilizando las FQ como consulta, realizamos una búsqueda de similitud semántica en el conjunto de datos. Los modelos identificaron similitudes entre las FQ y los artículos objetivo en diferentes grados y, al ordenar el conjunto de datos por similitudes semánticas utilizando el modelo de mejor rendimiento (all-mpnet-base-v2), los artículos objetivo se encontraron entre los 700 mejores documentos de los 6110 del conjunto de datos. Nuestros datos indican que la elección de un modelo preentrenado apropiado podría reducir notablemente el número de artículos a revisar y el tiempo de finalización para las revisiones sistemáticas.
Descripción
Las revisiones sistemáticas son engorrosas pero esenciales para el proceso epistémico de la ciencia médica. Sin embargo, encontrar informes significativos es una tarea desalentadora porque el gran volumen de literatura publicada hace que la revisión manual de bases de datos consuma mucho tiempo. El uso de la inteligencia artificial podría hacer que el procesamiento de la literatura sea más rápido y eficiente. Los transformadores de oraciones son algoritmos innovadores que pueden generar representaciones semánticas ricas de documentos de texto y permitir consultas semánticas. En el presente informe, comparamos cuatro modelos de transformadores de oraciones preentrenados disponibles de forma gratuita (all-MiniLM-L6-v2, all-MiniLM-L12-v2, all-mpnet-base-v2 y All-distilroberta-v1) en una muestra de conveniencia de 6110 artículos de una revisión sistemática publicada. Los autores de esta revisión revisaron manualmente el conjunto de datos e identificaron 24 artículos objetivo que abordaban las Preguntas Enfocadas (FQ) de la revisión. Aplicamos los cuatro transformadores de oraciones al conjunto de datos y, utilizando las FQ como consulta, realizamos una búsqueda de similitud semántica en el conjunto de datos. Los modelos identificaron similitudes entre las FQ y los artículos objetivo en diferentes grados y, al ordenar el conjunto de datos por similitudes semánticas utilizando el modelo de mejor rendimiento (all-mpnet-base-v2), los artículos objetivo se encontraron entre los 700 mejores documentos de los 6110 del conjunto de datos. Nuestros datos indican que la elección de un modelo preentrenado apropiado podría reducir notablemente el número de artículos a revisar y el tiempo de finalización para las revisiones sistemáticas.