Identificación de Interfaz de Búsqueda en la Deep Web: Un Enfoque de Conjunto Semi-Supervisado
Autores: Wang, Hong; Xu, Qingsong; Zhou, Lifeng
Idioma: Inglés
Editor: MDPI
Año: 2014
Acceso abierto
Artículo científico
2014
Identificación de Interfaz de Búsqueda en la Deep Web: Un Enfoque de Conjunto Semi-Supervisado
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Web profunda
Interfaz de búsqueda
Formulario HTML
Datos etiquetados
Datos no etiquetados
Aprendizaje semi-supervisado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para acceder a la Deep Web, una tarea crucial es predecir si una página web dada tiene una interfaz de búsqueda (formulario de HyperText Markup Language (HTML) buscable) o no. Estudios anteriores se han centrado en la clasificación supervisada con ejemplos etiquetados. Sin embargo, los datos etiquetados son escasos, difíciles de obtener y requieren un trabajo manual tedioso, mientras que los formularios HTML no etiquetados son abundantes y fáciles de conseguir. En esta investigación, consideramos la plausibilidad de utilizar tanto datos etiquetados como no etiquetados para entrenar mejores modelos que identifiquen interfaces de búsqueda de manera más efectiva. Presentamos un enfoque de aprendizaje conjunto semi-supervisado utilizando tanto redes neuronales como árboles de decisión para abordar el problema de identificación de interfaces de búsqueda. Mostramos que el modelo propuesto supera a los métodos anteriores que utilizan solo datos etiquetados. También demostramos que agregar datos no etiquetados mejora la efectividad del modelo propuesto.
Descripción
Para acceder a la Deep Web, una tarea crucial es predecir si una página web dada tiene una interfaz de búsqueda (formulario de HyperText Markup Language (HTML) buscable) o no. Estudios anteriores se han centrado en la clasificación supervisada con ejemplos etiquetados. Sin embargo, los datos etiquetados son escasos, difíciles de obtener y requieren un trabajo manual tedioso, mientras que los formularios HTML no etiquetados son abundantes y fáciles de conseguir. En esta investigación, consideramos la plausibilidad de utilizar tanto datos etiquetados como no etiquetados para entrenar mejores modelos que identifiquen interfaces de búsqueda de manera más efectiva. Presentamos un enfoque de aprendizaje conjunto semi-supervisado utilizando tanto redes neuronales como árboles de decisión para abordar el problema de identificación de interfaces de búsqueda. Mostramos que el modelo propuesto supera a los métodos anteriores que utilizan solo datos etiquetados. También demostramos que agregar datos no etiquetados mejora la efectividad del modelo propuesto.