logo móvil
Contáctanos

S-Gens: Generación de Datos Sintéticos Conscientes de la Estructura para Mejorar la Recuperación Densa Intensiva en Razonamiento

Autores: Lei, Zhou; Xu, Yanqi; Chen, Shengbo

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

S-Gens: Generación de Datos Sintéticos Conscientes de la Estructura para Mejorar la Recuperación Densa Intensiva en Razonamiento


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Retrievers
Tríos de entrenamiento
Estrategias de construcción de datos
Tareas de recuperación intensivas en razonamiento
S-Gens
Marco de generación de datos sintéticos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los recuperadores densos dependen en gran medida de tripletas de entrenamiento de alta calidad, sin embargo, las estrategias de construcción de datos existentes siguen siendo inadecuadas para tareas de recuperación intensivas en razonamiento que implican razonamiento de múltiples saltos, seguimiento de relaciones entre entidades y composición de evidencia implícita. Las muestras positivas a menudo se basan en una relevancia semántica superficial y no logran capturar cadenas de razonamiento explícitas, mientras que las muestras negativas se seleccionan típicamente de la superposición léxica o de candidatos aleatorios y, por lo tanto, proporcionan una supervisión limitada para aprender límites de decisión claros. Para abordar estos problemas, proponemos S-Gens, un marco de generación de datos sintéticos consciente de la estructura para mejorar la recuperación densa intensiva en razonamiento. S-Gens utiliza caminos de relación en un gráfico de conocimiento externo para sintetizar consultas y muestras positivas estructuralmente consistentes, y además construye negativos difíciles semánticamente similares pero estructuralmente inconsistentes. Para mejorar la fiabilidad de los datos, introducimos un mecanismo de filtrado de consistencia basado en una red neuronal gráfica siamés. Dado que S-Gens opera completamente durante la construcción de supervisión fuera de línea, sigue siendo agnóstico al modelo, preserva la arquitectura de inferencia original y es complementario a la recuperación guiada por gráficos o a los pipelines RAG que inyectan estructura en línea. Los experimentos en cinco conjuntos de datos de referencia muestran que S-Gens mejora consistentemente múltiples recuperadores entrenables, con las mayores ganancias en tareas de razonamiento de múltiples saltos como WebQSP y HotpotQA. Estos resultados indican que la supervisión sintética consciente de la estructura puede mejorar efectivamente la recuperación densa en entornos intensivos en razonamiento.

Otros recursos que podrían interesarte

Temas Virtualpro