Los efectos de la extracción de contenido basada en tablas en el agrupamiento de documentos de patentes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Los efectos de la extracción de contenido basada en tablas en el agrupamiento de documentos de patentes

Autores: Koessler, Denise R.; Martin, Benjamin W.; Kiefer, Bruce E.; Berry, Michael W.

Idioma: Inglés

Editor: MDPI

Año: 2012

Descargar PDF

Acceso abierto

Artículo científico

2012

Los efectos de la extracción de contenido basada en tablas en el agrupamiento de documentos de patentes

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Datos

Documentos

Software

Metadatos

Minería de texto

Objetos de documento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones

Los datos pueden representarse de muchas maneras diferentes dentro de un documento específico o un conjunto de documentos. Por lo tanto, los intentos de procesar automáticamente las relaciones entre documentos o determinar la relevancia de ciertos objetos en documentos pueden ser problemáticos. En este estudio, hemos desarrollado un software para catalogar automáticamente los objetos contenidos en archivos HTML de patentes otorgadas por la Oficina de Patentes y Marcas de los Estados Unidos (USPTO). Una vez que estos objetos son reconocidos, el software crea metadatos que asignan un tipo de datos a cada objeto del documento. Estos metadatos pueden procesarse y analizarse fácilmente para tareas posteriores de minería de texto. Específicamente, se aplicaron técnicas de similitud de documentos y de agrupación a un subconjunto de la colección de documentos de la USPTO. Aunque nuestros resultados preliminares demuestran que las tablas y los datos numéricos no proporcionan un valor cuantificable al contenido de un documento, se ha establecido el escenario para trabajos futuros en la medición de la importancia de los objetos del documento dentro de un gran corpus.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro