logo móvil
Contáctanos

Filtrado de Proyección Binaria Sin Entrenamiento para Recuperación Densa: Un Estudio Empírico de Reducción de Candidatos, Estabilidad de Clasificación y Riesgo de Fallo

Autores: Kiawkaew, Tip-aroon; Theeramunkong, Thanaruk

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Filtrado de Proyección Binaria Sin Entrenamiento para Recuperación Densa: Un Estudio Empírico de Reducción de Candidatos, Estabilidad de Clasificación y Riesgo de Fallo


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Recuperación
Candidato
Filtrado
Evaluación
Métricas
Análisis

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los pipelines de recuperación densa a menudo dependen de grandes conjuntos de candidatos antes de la reordenación, lo que convierte la generación de candidatos y la puntuación posterior en un cuello de botella práctico. Este artículo estudia el filtrado de proyección binaria sin entrenamiento como un pre-filtro ligero para reducir el conjunto de candidatos antes de la reordenación densa. En lugar de presentarlo como un método de recuperación universalmente superior o una técnica de aceleración validada, planteamos una pregunta práctica más específica: ¿cuánto se puede reducir el conjunto de candidatos antes de que la calidad promedio del rango superior, la relevancia retenida y la fiabilidad a nivel de consulta comiencen a desmoronarse? Evaluamos el enfoque en cinco conjuntos de datos de BEIR: SciFact, NFCorpus, FiQA, ArguAna y TREC-COVID. La evaluación revisada compara la recuperación densa exhaustiva, FAISS-HNSW, FAISS-IVF-Flat y la recuperación Binaria+Densa, e incluye ablaciones de dimensión de proyección sobre Db{128,256,512,1000}, ablaciones de presupuesto de candidatos sobre K{50,100,200,500}, análisis de robustez de cinco semillas y consultas perturbadas por errores tipográficos. Además de MRR@10, nDCG@10 y Recall@100, informamos métricas de la etapa de filtrado que incluyen Retained@K, tasa de fallo catastrófico y Mejor Supervivencia Relevante. A través de los conjuntos de datos, Binario+Denso a menudo se mantiene cerca de la recuperación densa exhaustiva en métricas promedio de rango superior en puntos de operación representativos, pero el comportamiento de la etapa de filtrado es fuertemente dependiente de la colección. Un mayor Db y K generalmente mejoran la relevancia retenida y reducen los fallos catastróficos, pero también aumentan el costo de filtrado o reducen el grado de poda. Los resultados de latencia muestran que la reducción estructural de candidatos no se traduce en una aceleración consistente de extremo a extremo en la implementación actual de Python 3.16/NumPy. En conjunto, los resultados sugieren que el filtrado de proyección binaria sin entrenamiento se entiende mejor como un pre-filtro sensible a la calibración y un mecanismo de análisis de riesgo de fallo en lugar de como un reemplazo para la recuperación densa o ANN.

Otros recursos que podrían interesarte

Temas Virtualpro