Modelos de Temas en Conjuntos para Recuperación de Información AD-HOC
Autores: Ormeño, Pablo; Mendoza, Marcelo; Valle, Carlos
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Modelos de Temas en Conjuntos para Recuperación de Información AD-HOC
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Recuperación de información
IR ad hoc
Documentos de texto
Modelos de temas
Asignación de Dirichlet Latente
Estrategias de conjunto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La recuperación de información ad hoc (IR ad hoc) es una tarea desafiante que consiste en clasificar documentos de texto para consultas de bolsa de palabras (BOW). Los enfoques clásicos basados en vectores de texto de consultas y documentos utilizan funciones de ponderación de términos para clasificar los documentos. Algunas de las limitaciones de estos métodos consisten en su incapacidad para trabajar con conceptos polisémicos. Además, estos métodos introducen falsas ortogonalidades entre palabras semánticamente relacionadas. Para abordar estas limitaciones, se han explorado enfoques de IR basados en modelos. Específicamente, los modelos de temas basados en la Asignación de Dirichlet Latente (LDA) permiten construir representaciones de documentos de texto en el espacio latente de temas, modelando mejor la polisemia y evitando la generación de representaciones ortogonales entre términos relacionados. Extendemos las estrategias de IR basadas en LDA utilizando diferentes estrategias de conjunto. La selección de modelos obedece al paradigma de aprendizaje en conjunto, para el cual probamos dos enfoques exitosos ampliamente utilizados en el aprendizaje supervisado. Estudiamos técnicas de Boosting y Bagging para modelos de temas, utilizando cada modelo como un experto débil en IR. Luego, fusionamos las listas de clasificación obtenidas de cada modelo utilizando un enfoque de fusión de listas top-k simple pero efectivo. Mostramos que nuestra propuesta fortalece los resultados en precisión y recuperación, superando los modelos clásicos de IR y fuertes líneas base basadas en modelos de temas.
Descripción
La recuperación de información ad hoc (IR ad hoc) es una tarea desafiante que consiste en clasificar documentos de texto para consultas de bolsa de palabras (BOW). Los enfoques clásicos basados en vectores de texto de consultas y documentos utilizan funciones de ponderación de términos para clasificar los documentos. Algunas de las limitaciones de estos métodos consisten en su incapacidad para trabajar con conceptos polisémicos. Además, estos métodos introducen falsas ortogonalidades entre palabras semánticamente relacionadas. Para abordar estas limitaciones, se han explorado enfoques de IR basados en modelos. Específicamente, los modelos de temas basados en la Asignación de Dirichlet Latente (LDA) permiten construir representaciones de documentos de texto en el espacio latente de temas, modelando mejor la polisemia y evitando la generación de representaciones ortogonales entre términos relacionados. Extendemos las estrategias de IR basadas en LDA utilizando diferentes estrategias de conjunto. La selección de modelos obedece al paradigma de aprendizaje en conjunto, para el cual probamos dos enfoques exitosos ampliamente utilizados en el aprendizaje supervisado. Estudiamos técnicas de Boosting y Bagging para modelos de temas, utilizando cada modelo como un experto débil en IR. Luego, fusionamos las listas de clasificación obtenidas de cada modelo utilizando un enfoque de fusión de listas top-k simple pero efectivo. Mostramos que nuestra propuesta fortalece los resultados en precisión y recuperación, superando los modelos clásicos de IR y fuertes líneas base basadas en modelos de temas.