Entidad que hace coincidir por aprendizaje activo basado en piscinas
Autores: Han, Youfang; Li, Chunping
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Entidad que hace coincidir por aprendizaje activo basado en piscinas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Coincidencia de entidades
Registros
Fuentes de datos
Basado en aprendizaje automático
Basado en aprendizaje profundo
Aprendizaje activo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
El objetivo de la coincidencia de entidades es encontrar los registros correspondientes que representan la misma entidad en diferentes fuentes de datos. En la actualidad, en los métodos principales, los métodos de coincidencia de entidades basados en reglas requieren un gran conocimiento de dominio. Los métodos de coincidencia de entidades basados en aprendizaje automático o aprendizaje profundo necesitan un gran número de muestras etiquetadas para construir el modelo, lo cual es difícil de lograr en algunas aplicaciones. Además, los métodos basados en aprendizaje son más propensos al sobreajuste, por lo que los requisitos de calidad de las muestras de entrenamiento son muy altos. En este documento, presentamos un método de aprendizaje activo para tareas de coincidencia de entidades. Este método solo necesita etiquetar manualmente un pequeño número de muestras valiosas y utilizar estas muestras etiquetadas para construir un modelo de alta calidad. Este documento propone la incertidumbre híbrida como una estrategia de consulta para encontrar esas muestras valiosas para su etiquetado, lo que puede minimizar el número de muestras de entrenamiento etiquetadas y al mismo tiempo cumplir con los requisitos de las tareas de coincidencia de entidades. El método propuesto se valida en siete conjuntos de datos en diferentes campos. Los experimentos muestran que el método propuesto utiliza solo un pequeño número de muestras etiquetadas y logra mejores efectos en comparación con los enfoques existentes actuales.
Descripción
El objetivo de la coincidencia de entidades es encontrar los registros correspondientes que representan la misma entidad en diferentes fuentes de datos. En la actualidad, en los métodos principales, los métodos de coincidencia de entidades basados en reglas requieren un gran conocimiento de dominio. Los métodos de coincidencia de entidades basados en aprendizaje automático o aprendizaje profundo necesitan un gran número de muestras etiquetadas para construir el modelo, lo cual es difícil de lograr en algunas aplicaciones. Además, los métodos basados en aprendizaje son más propensos al sobreajuste, por lo que los requisitos de calidad de las muestras de entrenamiento son muy altos. En este documento, presentamos un método de aprendizaje activo para tareas de coincidencia de entidades. Este método solo necesita etiquetar manualmente un pequeño número de muestras valiosas y utilizar estas muestras etiquetadas para construir un modelo de alta calidad. Este documento propone la incertidumbre híbrida como una estrategia de consulta para encontrar esas muestras valiosas para su etiquetado, lo que puede minimizar el número de muestras de entrenamiento etiquetadas y al mismo tiempo cumplir con los requisitos de las tareas de coincidencia de entidades. El método propuesto se valida en siete conjuntos de datos en diferentes campos. Los experimentos muestran que el método propuesto utiliza solo un pequeño número de muestras etiquetadas y logra mejores efectos en comparación con los enfoques existentes actuales.