Snmatch: un método no supervisado para la detección de tipo semántico de columnas basado en red siamesa
Autores: Nie, Tiezheng; Mao, Hanyu; Liu, Aolin; Wang, Xuliang; Shen, Derong; Kou, Yue
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Snmatch: un método no supervisado para la detección de tipo semántico de columnas basado en red siamesa
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Enfoque
No supervisado
Tipos semánticos de columnas
SNMatch
Precisión de agrupamiento
Incrustaciones basadas en redes neuronales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
La detección del tipo semántico de columnas es una tarea crucial para la integración de datos y la coincidencia de esquemas, especialmente al tratar con grandes volúmenes de datos tabulares no etiquetados. Los métodos existentes a menudo dependen de modelos de aprendizaje supervisado, que requieren datos etiquetados extensos. En este documento, proponemos SNMatch, un enfoque no supervisado basado en una red Siamesa para detectar tipos semánticos de columnas sin datos de entrenamiento etiquetados. La novedad de SNMatch radica en su capacidad para generar los incrustamientos semánticos de columnas considerando tanto el formato como las características semánticas y agrupándolos en tipos semánticos. A diferencia de los métodos tradicionales, que suelen depender de la coincidencia de palabras clave o la clasificación supervisada, SNMatch aprovecha el aprendizaje no supervisado para abordar los desafíos de la detección semántica de columnas en conjuntos de datos masivos con ejemplos etiquetados limitados. Demostramos que SNMatch supera significativamente las técnicas actuales líderes en términos de precisión de agrupamiento, especialmente en el manejo de tipos semánticos complejos y anidados. Experimentos extensos en los conjuntos de datos MACST y VizNet-Manyeyes validan su efectividad, logrando un rendimiento superior en la detección del tipo semántico de columnas en comparación con métodos como TF-IDF, FastText y BERT. El método propuesto muestra un gran potencial para aplicaciones prácticas en integración de datos, limpieza de datos y mapeo automático de esquemas, especialmente en escenarios donde los datos etiquetados son escasos o no están disponibles. Además, nuestro trabajo se basa en los avances recientes en incrustaciones basadas en redes neuronales y aprendizaje no supervisado, contribuyendo al creciente cuerpo de investigación en la coincidencia automática de esquemas y comprensión de datos tabulares.
Descripción
La detección del tipo semántico de columnas es una tarea crucial para la integración de datos y la coincidencia de esquemas, especialmente al tratar con grandes volúmenes de datos tabulares no etiquetados. Los métodos existentes a menudo dependen de modelos de aprendizaje supervisado, que requieren datos etiquetados extensos. En este documento, proponemos SNMatch, un enfoque no supervisado basado en una red Siamesa para detectar tipos semánticos de columnas sin datos de entrenamiento etiquetados. La novedad de SNMatch radica en su capacidad para generar los incrustamientos semánticos de columnas considerando tanto el formato como las características semánticas y agrupándolos en tipos semánticos. A diferencia de los métodos tradicionales, que suelen depender de la coincidencia de palabras clave o la clasificación supervisada, SNMatch aprovecha el aprendizaje no supervisado para abordar los desafíos de la detección semántica de columnas en conjuntos de datos masivos con ejemplos etiquetados limitados. Demostramos que SNMatch supera significativamente las técnicas actuales líderes en términos de precisión de agrupamiento, especialmente en el manejo de tipos semánticos complejos y anidados. Experimentos extensos en los conjuntos de datos MACST y VizNet-Manyeyes validan su efectividad, logrando un rendimiento superior en la detección del tipo semántico de columnas en comparación con métodos como TF-IDF, FastText y BERT. El método propuesto muestra un gran potencial para aplicaciones prácticas en integración de datos, limpieza de datos y mapeo automático de esquemas, especialmente en escenarios donde los datos etiquetados son escasos o no están disponibles. Además, nuestro trabajo se basa en los avances recientes en incrustaciones basadas en redes neuronales y aprendizaje no supervisado, contribuyendo al creciente cuerpo de investigación en la coincidencia automática de esquemas y comprensión de datos tabulares.