logo móvil
Contáctanos

Sobre la tarea de deduplicación de publicaciones de empleo utilizando filtrado basado en incrustaciones y validación de LLM

Autores: Thivaios, Giannis; Zervas, Panagiotis; Giotopoulos, Konstantinos; Tzimas, Giannis

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Sobre la tarea de deduplicación de publicaciones de empleo utilizando filtrado basado en incrustaciones y validación de LLM


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Publicaciones de empleo
Deduplicación
Metodología
Filtrado basado en incrustaciones
Modelo de Lenguaje Grande
Precisión semántica

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento aborda el desafío de la deduplicación de ofertas de trabajo en grandes conjuntos de datos heterogéneos al introducir una metodología eficiente de múltiples etapas que combina filtrado basado en incrustaciones con validación de Modelos de Lenguaje Grande (LLM). El sistema propuesto comienza con el preprocesamiento de datos y la vectorización semántica de campos textuales clave utilizando un modelo de incrustación de texto. Para reducir el costo computacional de comparaciones exhaustivas por pares, se emplea un mecanismo de agrupamiento basado en clustering para restringir las comparaciones a clústeres semánticamente coherentes. Los duplicados candidatos se validan luego utilizando LLMs, que evalúan la equivalencia semántica a través de diferencias destacadas en títulos de trabajo, descripciones, empresas y ubicaciones. El sistema propuesto se evalúa en un conjunto de datos aumentado de 50,000 ofertas de trabajo, produciendo 6669 pares candidatos para validación. Entre los modelos evaluados, GPT-4o logró la puntuación F1 más alta (95.10%), mientras que el modelo ligero Phi-4 demostró un rendimiento competitivo (92.58%) con un costo computacional significativamente menor. Estos hallazgos demuestran que el marco híbrido propuesto logra una alta precisión semántica mientras se mantiene escalable para un despliegue continuo a gran escala.

Otros recursos que podrían interesarte

Temas Virtualpro