Mejorando la Recuperación de Información Semántica Usando el Clasificador Naive Bayes Multinomial y Redes Bayesianas
Autores: Chebil, Wiem; Wedyan, Mohammad; Alazab, Moutaz; Alturki, Ryan; Elshaweesh, Omar
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorando la Recuperación de Información Semántica Usando el Clasificador Naive Bayes Multinomial y Redes Bayesianas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Enfoque
Sistemas de recuperación de información
Clasificador multinomial ingenuo de Bayes
Redes bayesianas
Tesauro MeSH
SNOMED CT
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Esta investigación propone un nuevo enfoque para mejorar los sistemas de recuperación de información basado en un clasificador de Bayes ingenuo multinomial (MNBC), redes bayesianas (BN) y una multi-terminología que incluye el tesauro MeSH (Términos Médicos en Inglés) y SNOMED CT (Nomenclatura Sistemática de Medicina de Términos Clínicos). Nuestro enfoque, titulado mejora de la recuperación de información semántica (IMSIR), extrae y desambiguar conceptos y recupera documentos. Se seleccionaron conceptos relevantes de términos ambiguos utilizando medidas de probabilidad y terminologías biomédicas. Los conceptos también se extraen utilizando un MNBC. Luego se utilizó el tesauro UMLS (Sistema Unificado de Lenguaje Médico) para filtrar y clasificar conceptos. Finalmente, explotamos una red bayesiana para emparejar documentos y consultas utilizando una representación conceptual. Nuestra principal contribución en este artículo es combinar un método supervisado (MNBC) y un método no supervisado (BN) para extraer conceptos de documentos y consultas. También proponemos filtrar los conceptos extraídos para conservar los relevantes. Los experimentos de IMSIR utilizando los dos corpus, el corpus OHSUMED y el corpus de Ensayos Clínicos (CT), fueron interesantes porque sus resultados superaron a los de la línea base: la tasa de mejora P@50 fue del +36.5% sobre la línea base cuando se utilizó el corpus CT.
Descripción
Esta investigación propone un nuevo enfoque para mejorar los sistemas de recuperación de información basado en un clasificador de Bayes ingenuo multinomial (MNBC), redes bayesianas (BN) y una multi-terminología que incluye el tesauro MeSH (Términos Médicos en Inglés) y SNOMED CT (Nomenclatura Sistemática de Medicina de Términos Clínicos). Nuestro enfoque, titulado mejora de la recuperación de información semántica (IMSIR), extrae y desambiguar conceptos y recupera documentos. Se seleccionaron conceptos relevantes de términos ambiguos utilizando medidas de probabilidad y terminologías biomédicas. Los conceptos también se extraen utilizando un MNBC. Luego se utilizó el tesauro UMLS (Sistema Unificado de Lenguaje Médico) para filtrar y clasificar conceptos. Finalmente, explotamos una red bayesiana para emparejar documentos y consultas utilizando una representación conceptual. Nuestra principal contribución en este artículo es combinar un método supervisado (MNBC) y un método no supervisado (BN) para extraer conceptos de documentos y consultas. También proponemos filtrar los conceptos extraídos para conservar los relevantes. Los experimentos de IMSIR utilizando los dos corpus, el corpus OHSUMED y el corpus de Ensayos Clínicos (CT), fueron interesantes porque sus resultados superaron a los de la línea base: la tasa de mejora P@50 fue del +36.5% sobre la línea base cuando se utilizó el corpus CT.