Agrupación de temas semánticamente conscientes basada en tensores de documentos biomédicos
Autores: Drakopoulos, Georgios; Kanavos, Andreas; Karydis, Ioannis; Sioutas, Spyros; Vrahatis, Aristidis G.
Idioma: Inglés
Editor: MDPI
Año: 2017
Acceso abierto
Artículo científico
2017
Agrupación de temas semánticamente conscientes basada en tensores de documentos biomédicos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Biomedicina
Esfuerzo científico
Documentos biomédicos
Recuperación de información
Esquemas de agrupamiento
álgebra tensorial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
La biomedicina es un pilar del esfuerzo colectivo y científico de autodescubrimiento humano, así como una fuente principal de datos humanísticos codificados principalmente en documentos biomédicos. A pesar de su estructura rígida, mantener y actualizar una colección de documentos de tal tamaño es una tarea de una complejidad abrumadora que exige una eficiente recuperación de información con el propósito de integrar esquemas de agrupación. Estos últimos deben trabajar de forma nativa con datos inherentemente multidimensionales y con interdependencias de orden superior. Además, la experiencia pasada indica que la agrupación debería ser mejorada semánticamente. El álgebra tensorial es la clave para extender el modelo actual de término-documento a más dimensiones. En este artículo, se propone una estrategia alternativa de término-documento de palabras clave, basada en observaciones cientométricas que indican que las palabras clave suelen tener más poder expresivo que los términos de texto ordinarios, cuyos pilares algorítmicos son tensores de tercer orden y funciones ontológicas MeSH. Esta estrategia ha sido comparada con un punto de referencia utilizando dos conjuntos de datos biomédicos diferentes, el conjunto de datos de genómica de TREC (Conferencia de Recuperación de Texto) y un gran conjunto personalizado de artículos de ciencias cognitivas de PubMed.
Descripción
La biomedicina es un pilar del esfuerzo colectivo y científico de autodescubrimiento humano, así como una fuente principal de datos humanísticos codificados principalmente en documentos biomédicos. A pesar de su estructura rígida, mantener y actualizar una colección de documentos de tal tamaño es una tarea de una complejidad abrumadora que exige una eficiente recuperación de información con el propósito de integrar esquemas de agrupación. Estos últimos deben trabajar de forma nativa con datos inherentemente multidimensionales y con interdependencias de orden superior. Además, la experiencia pasada indica que la agrupación debería ser mejorada semánticamente. El álgebra tensorial es la clave para extender el modelo actual de término-documento a más dimensiones. En este artículo, se propone una estrategia alternativa de término-documento de palabras clave, basada en observaciones cientométricas que indican que las palabras clave suelen tener más poder expresivo que los términos de texto ordinarios, cuyos pilares algorítmicos son tensores de tercer orden y funciones ontológicas MeSH. Esta estrategia ha sido comparada con un punto de referencia utilizando dos conjuntos de datos biomédicos diferentes, el conjunto de datos de genómica de TREC (Conferencia de Recuperación de Texto) y un gran conjunto personalizado de artículos de ciencias cognitivas de PubMed.