Los efectos de la extracción de contenido basada en tablas en el agrupamiento de documentos de patentes
Autores: Koessler, Denise R.; Martin, Benjamin W.; Kiefer, Bruce E.; Berry, Michael W.
Idioma: Inglés
Editor: MDPI
Año: 2012
Acceso abierto
Artículo científico
2012
Los efectos de la extracción de contenido basada en tablas en el agrupamiento de documentos de patentes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Datos
Documentos
Software
Metadatos
Minería de texto
Objetos de documento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Los datos pueden representarse de muchas maneras diferentes dentro de un documento específico o un conjunto de documentos. Por lo tanto, los intentos de procesar automáticamente las relaciones entre documentos o determinar la relevancia de ciertos objetos en documentos pueden ser problemáticos. En este estudio, hemos desarrollado un software para catalogar automáticamente los objetos contenidos en archivos HTML de patentes otorgadas por la Oficina de Patentes y Marcas de los Estados Unidos (USPTO). Una vez que estos objetos son reconocidos, el software crea metadatos que asignan un tipo de datos a cada objeto del documento. Estos metadatos pueden procesarse y analizarse fácilmente para tareas posteriores de minería de texto. Específicamente, se aplicaron técnicas de similitud de documentos y de agrupación a un subconjunto de la colección de documentos de la USPTO. Aunque nuestros resultados preliminares demuestran que las tablas y los datos numéricos no proporcionan un valor cuantificable al contenido de un documento, se ha establecido el escenario para trabajos futuros en la medición de la importancia de los objetos del documento dentro de un gran corpus.
Descripción
Los datos pueden representarse de muchas maneras diferentes dentro de un documento específico o un conjunto de documentos. Por lo tanto, los intentos de procesar automáticamente las relaciones entre documentos o determinar la relevancia de ciertos objetos en documentos pueden ser problemáticos. En este estudio, hemos desarrollado un software para catalogar automáticamente los objetos contenidos en archivos HTML de patentes otorgadas por la Oficina de Patentes y Marcas de los Estados Unidos (USPTO). Una vez que estos objetos son reconocidos, el software crea metadatos que asignan un tipo de datos a cada objeto del documento. Estos metadatos pueden procesarse y analizarse fácilmente para tareas posteriores de minería de texto. Específicamente, se aplicaron técnicas de similitud de documentos y de agrupación a un subconjunto de la colección de documentos de la USPTO. Aunque nuestros resultados preliminares demuestran que las tablas y los datos numéricos no proporcionan un valor cuantificable al contenido de un documento, se ha establecido el escenario para trabajos futuros en la medición de la importancia de los objetos del documento dentro de un gran corpus.