logo móvil
Contáctanos

Snmatch: un método no supervisado para la detección de tipo semántico de columnas basado en red siamesa

Autores: Nie, Tiezheng; Mao, Hanyu; Liu, Aolin; Wang, Xuliang; Shen, Derong; Kou, Yue

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Snmatch: un método no supervisado para la detección de tipo semántico de columnas basado en red siamesa


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Enfoque
No supervisado
Tipos semánticos de columnas
SNMatch
Precisión de agrupamiento
Incrustaciones basadas en redes neuronales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones


Descripción
La detección del tipo semántico de columnas es una tarea crucial para la integración de datos y la coincidencia de esquemas, especialmente al tratar con grandes volúmenes de datos tabulares no etiquetados. Los métodos existentes a menudo dependen de modelos de aprendizaje supervisado, que requieren datos etiquetados extensos. En este documento, proponemos SNMatch, un enfoque no supervisado basado en una red Siamesa para detectar tipos semánticos de columnas sin datos de entrenamiento etiquetados. La novedad de SNMatch radica en su capacidad para generar los incrustamientos semánticos de columnas considerando tanto el formato como las características semánticas y agrupándolos en tipos semánticos. A diferencia de los métodos tradicionales, que suelen depender de la coincidencia de palabras clave o la clasificación supervisada, SNMatch aprovecha el aprendizaje no supervisado para abordar los desafíos de la detección semántica de columnas en conjuntos de datos masivos con ejemplos etiquetados limitados. Demostramos que SNMatch supera significativamente las técnicas actuales líderes en términos de precisión de agrupamiento, especialmente en el manejo de tipos semánticos complejos y anidados. Experimentos extensos en los conjuntos de datos MACST y VizNet-Manyeyes validan su efectividad, logrando un rendimiento superior en la detección del tipo semántico de columnas en comparación con métodos como TF-IDF, FastText y BERT. El método propuesto muestra un gran potencial para aplicaciones prácticas en integración de datos, limpieza de datos y mapeo automático de esquemas, especialmente en escenarios donde los datos etiquetados son escasos o no están disponibles. Además, nuestro trabajo se basa en los avances recientes en incrustaciones basadas en redes neuronales y aprendizaje no supervisado, contribuyendo al creciente cuerpo de investigación en la coincidencia automática de esquemas y comprensión de datos tabulares.

Otros recursos que podrían interesarte

Temas Virtualpro