logo móvil
Contáctanos

Los efectos de la extracción de contenido basada en tablas en el agrupamiento de documentos de patentes

Autores: Koessler, Denise R.; Martin, Benjamin W.; Kiefer, Bruce E.; Berry, Michael W.

Idioma: Inglés

Editor: MDPI

Año: 2012

Descargar PDF

Acceso abierto

Artículo científico
2012

Los efectos de la extracción de contenido basada en tablas en el agrupamiento de documentos de patentes


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Datos
Documentos
Software
Metadatos
Minería de texto
Objetos de documento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Los datos pueden representarse de muchas maneras diferentes dentro de un documento específico o un conjunto de documentos. Por lo tanto, los intentos de procesar automáticamente las relaciones entre documentos o determinar la relevancia de ciertos objetos en documentos pueden ser problemáticos. En este estudio, hemos desarrollado un software para catalogar automáticamente los objetos contenidos en archivos HTML de patentes otorgadas por la Oficina de Patentes y Marcas de los Estados Unidos (USPTO). Una vez que estos objetos son reconocidos, el software crea metadatos que asignan un tipo de datos a cada objeto del documento. Estos metadatos pueden procesarse y analizarse fácilmente para tareas posteriores de minería de texto. Específicamente, se aplicaron técnicas de similitud de documentos y de agrupación a un subconjunto de la colección de documentos de la USPTO. Aunque nuestros resultados preliminares demuestran que las tablas y los datos numéricos no proporcionan un valor cuantificable al contenido de un documento, se ha establecido el escenario para trabajos futuros en la medición de la importancia de los objetos del documento dentro de un gran corpus.

Otros recursos que podrían interesarte

Temas Virtualpro