Snmatch: un método no supervisado para la detección de tipo semántico de columnas basado en red siamesa

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Snmatch: un método no supervisado para la detección de tipo semántico de columnas basado en red siamesa

Autores: Nie, Tiezheng; Mao, Hanyu; Liu, Aolin; Wang, Xuliang; Shen, Derong; Kou, Yue

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Snmatch: un método no supervisado para la detección de tipo semántico de columnas basado en red siamesa

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Enfoque

No supervisado

Tipos semánticos de columnas

SNMatch

Precisión de agrupamiento

Incrustaciones basadas en redes neuronales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones

La detección del tipo semántico de columnas es una tarea crucial para la integración de datos y la coincidencia de esquemas, especialmente al tratar con grandes volúmenes de datos tabulares no etiquetados. Los métodos existentes a menudo dependen de modelos de aprendizaje supervisado, que requieren datos etiquetados extensos. En este documento, proponemos SNMatch, un enfoque no supervisado basado en una red Siamesa para detectar tipos semánticos de columnas sin datos de entrenamiento etiquetados. La novedad de SNMatch radica en su capacidad para generar los incrustamientos semánticos de columnas considerando tanto el formato como las características semánticas y agrupándolos en tipos semánticos. A diferencia de los métodos tradicionales, que suelen depender de la coincidencia de palabras clave o la clasificación supervisada, SNMatch aprovecha el aprendizaje no supervisado para abordar los desafíos de la detección semántica de columnas en conjuntos de datos masivos con ejemplos etiquetados limitados. Demostramos que SNMatch supera significativamente las técnicas actuales líderes en términos de precisión de agrupamiento, especialmente en el manejo de tipos semánticos complejos y anidados. Experimentos extensos en los conjuntos de datos MACST y VizNet-Manyeyes validan su efectividad, logrando un rendimiento superior en la detección del tipo semántico de columnas en comparación con métodos como TF-IDF, FastText y BERT. El método propuesto muestra un gran potencial para aplicaciones prácticas en integración de datos, limpieza de datos y mapeo automático de esquemas, especialmente en escenarios donde los datos etiquetados son escasos o no están disponibles. Además, nuestro trabajo se basa en los avances recientes en incrustaciones basadas en redes neuronales y aprendizaje no supervisado, contribuyendo al creciente cuerpo de investigación en la coincidencia automática de esquemas y comprensión de datos tabulares.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro