Sobre la tarea de deduplicación de publicaciones de empleo utilizando filtrado basado en incrustaciones y validación de LLM

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Sobre la tarea de deduplicación de publicaciones de empleo utilizando filtrado basado en incrustaciones y validación de LLM

Autores: Thivaios, Giannis; Zervas, Panagiotis; Giotopoulos, Konstantinos; Tzimas, Giannis

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Sobre la tarea de deduplicación de publicaciones de empleo utilizando filtrado basado en incrustaciones y validación de LLM

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Publicaciones de empleo

Deduplicación

Metodología

Filtrado basado en incrustaciones

Modelo de Lenguaje Grande

Precisión semántica

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento aborda el desafío de la deduplicación de ofertas de trabajo en grandes conjuntos de datos heterogéneos al introducir una metodología eficiente de múltiples etapas que combina filtrado basado en incrustaciones con validación de Modelos de Lenguaje Grande (LLM). El sistema propuesto comienza con el preprocesamiento de datos y la vectorización semántica de campos textuales clave utilizando un modelo de incrustación de texto. Para reducir el costo computacional de comparaciones exhaustivas por pares, se emplea un mecanismo de agrupamiento basado en clustering para restringir las comparaciones a clústeres semánticamente coherentes. Los duplicados candidatos se validan luego utilizando LLMs, que evalúan la equivalencia semántica a través de diferencias destacadas en títulos de trabajo, descripciones, empresas y ubicaciones. El sistema propuesto se evalúa en un conjunto de datos aumentado de 50,000 ofertas de trabajo, produciendo 6669 pares candidatos para validación. Entre los modelos evaluados, GPT-4o logró la puntuación F1 más alta (95.10%), mientras que el modelo ligero Phi-4 demostró un rendimiento competitivo (92.58%) con un costo computacional significativamente menor. Estos hallazgos demuestran que el marco híbrido propuesto logra una alta precisión semántica mientras se mantiene escalable para un despliegue continuo a gran escala.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro