Aprendiendo a co-incrustar consultas y documentos
Autores: Wu, Yuehong; Lu, Bowen; Tian, Lin; Liang, Shangsong
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendiendo a co-incrustar consultas y documentos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje para clasificar
Técnicas de aprendizaje automático
Problemas de clasificación
Modelo de incrustación gaussiano
Enfoque de clasificación por pares
Relevancia entre consultas y documentos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Los métodos de Learning to Rank (L2R) que utilizan técnicas de aprendizaje automático para resolver problemas de clasificación han sido ampliamente estudiados en el campo de la recuperación de información. Los métodos existentes suelen concatenar características de consultas y documentos como entrada de entrenamiento, sin comprender explícitamente la relevancia entre consultas y documentos, especialmente en un enfoque de clasificación basado en pares. Por lo tanto, es una pregunta interesante si podemos idear un algoritmo que describa efectivamente la relación entre consultas y documentos para aprender un mejor modelo de clasificación sin incurrir en costos de parámetros enormes. En este documento, presentamos un modelo de Incrustación Gaussiana para la Clasificación (GERank), una arquitectura para co-incrustar consultas y documentos, de modo que cada consulta o documento esté representado por una distribución gaussiana con media y varianza. Nuestro GERank optimiza una pérdida basada en energía basada en el marco de clasificación por pares. Además, la divergencia KL se utiliza para medir la relevancia entre consultas y documentos. Los resultados experimentales en dos conjuntos de datos LETOR y un conjunto de datos TREC demuestran que nuestro modelo obtiene una mejora notable en el rendimiento de clasificación en comparación con los modelos de recuperación de vanguardia.
Descripción
Los métodos de Learning to Rank (L2R) que utilizan técnicas de aprendizaje automático para resolver problemas de clasificación han sido ampliamente estudiados en el campo de la recuperación de información. Los métodos existentes suelen concatenar características de consultas y documentos como entrada de entrenamiento, sin comprender explícitamente la relevancia entre consultas y documentos, especialmente en un enfoque de clasificación basado en pares. Por lo tanto, es una pregunta interesante si podemos idear un algoritmo que describa efectivamente la relación entre consultas y documentos para aprender un mejor modelo de clasificación sin incurrir en costos de parámetros enormes. En este documento, presentamos un modelo de Incrustación Gaussiana para la Clasificación (GERank), una arquitectura para co-incrustar consultas y documentos, de modo que cada consulta o documento esté representado por una distribución gaussiana con media y varianza. Nuestro GERank optimiza una pérdida basada en energía basada en el marco de clasificación por pares. Además, la divergencia KL se utiliza para medir la relevancia entre consultas y documentos. Los resultados experimentales en dos conjuntos de datos LETOR y un conjunto de datos TREC demuestran que nuestro modelo obtiene una mejora notable en el rendimiento de clasificación en comparación con los modelos de recuperación de vanguardia.