Predicción de tipo de columna para tablas web impulsada por base de conocimiento y texto
Autores: Wu, Junyi; Ye, Chen; Zhi, Haoshi; Jiang, Shihao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Predicción de tipo de columna para tablas web impulsada por base de conocimiento y texto
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Tablas web
Análisis de datos
Incompleto
Tipos de columnas
CNN-Texto
Predicción
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
Las tablas web son esenciales para aplicaciones como el análisis de datos. Sin embargo, a menudo las tablas web están incompletas y carecen de información crítica, lo que dificulta la comprensión del contenido de la tabla web. Predecir automáticamente los tipos de columnas para tablas sin metadatos es significativo para tratar con diversas tablas de Internet. Este documento propone un método CNN-Text para abordar esta tarea, que fusiona la predicción de CNN y los procesos de votación. Presentamos enfoques de aumento de datos y generación sintética de columnas para mejorar el rendimiento de CNN y utilizar el texto extraído para obtener mejores predicciones. El resultado experimental muestra que CNN-Text supera a los métodos de referencia, demostrando que CNN-Text está bien calificado para la predicción del tipo de columna de la tabla.
Descripción
Las tablas web son esenciales para aplicaciones como el análisis de datos. Sin embargo, a menudo las tablas web están incompletas y carecen de información crítica, lo que dificulta la comprensión del contenido de la tabla web. Predecir automáticamente los tipos de columnas para tablas sin metadatos es significativo para tratar con diversas tablas de Internet. Este documento propone un método CNN-Text para abordar esta tarea, que fusiona la predicción de CNN y los procesos de votación. Presentamos enfoques de aumento de datos y generación sintética de columnas para mejorar el rendimiento de CNN y utilizar el texto extraído para obtener mejores predicciones. El resultado experimental muestra que CNN-Text supera a los métodos de referencia, demostrando que CNN-Text está bien calificado para la predicción del tipo de columna de la tabla.