logo móvil
Contáctanos

Modelos de Temas en Conjuntos para Recuperación de Información AD-HOC

Autores: Ormeño, Pablo; Mendoza, Marcelo; Valle, Carlos

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Modelos de Temas en Conjuntos para Recuperación de Información AD-HOC


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Recuperación de información
IR ad hoc
Documentos de texto
Modelos de temas
Asignación de Dirichlet Latente
Estrategias de conjunto

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La recuperación de información ad hoc (IR ad hoc) es una tarea desafiante que consiste en clasificar documentos de texto para consultas de bolsa de palabras (BOW). Los enfoques clásicos basados en vectores de texto de consultas y documentos utilizan funciones de ponderación de términos para clasificar los documentos. Algunas de las limitaciones de estos métodos consisten en su incapacidad para trabajar con conceptos polisémicos. Además, estos métodos introducen falsas ortogonalidades entre palabras semánticamente relacionadas. Para abordar estas limitaciones, se han explorado enfoques de IR basados en modelos. Específicamente, los modelos de temas basados en la Asignación de Dirichlet Latente (LDA) permiten construir representaciones de documentos de texto en el espacio latente de temas, modelando mejor la polisemia y evitando la generación de representaciones ortogonales entre términos relacionados. Extendemos las estrategias de IR basadas en LDA utilizando diferentes estrategias de conjunto. La selección de modelos obedece al paradigma de aprendizaje en conjunto, para el cual probamos dos enfoques exitosos ampliamente utilizados en el aprendizaje supervisado. Estudiamos técnicas de Boosting y Bagging para modelos de temas, utilizando cada modelo como un experto débil en IR. Luego, fusionamos las listas de clasificación obtenidas de cada modelo utilizando un enfoque de fusión de listas top-k simple pero efectivo. Mostramos que nuestra propuesta fortalece los resultados en precisión y recuperación, superando los modelos clásicos de IR y fuertes líneas base basadas en modelos de temas.

Otros recursos que podrían interesarte

Temas Virtualpro