Un método de extracción de palabras clave de patentes basado en la clasificación de corpus
Autores: Sun, Changjian; Chen, Wentao; Zhang, Zhen; Zhang, Tian
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método de extracción de palabras clave de patentes basado en la clasificación de corpus
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Extracción de palabras clave
Patentes
Tendencias tecnológicas
PKECC
Examinadores de patentes humanos
Descripción
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
La extracción de palabras clave de patentes es crucial para que los técnicos dominen las tendencias de la tecnología. Los enfoques tradicionales de extracción de palabras clave solo manejan texto corto como el título o las reclamaciones, pero ignoran el significado completo de la descripción. Este documento propone un nuevo método de extracción de palabras clave de patentes basado en la clasificación de corpus (PKECC), que simula los métodos de comprensión de patentes de examinadores de patentes humanos. Primero, un modelo de clasificación de corpus basado en un mecanismo de atención de varios niveles adopta el modelo Bert y un mecanismo de atención jerárquica para clasificar las oraciones de la descripción de la patente en cuatro partes que incluyen campo técnico, problema técnico, solución técnica y efecto técnico. Luego, se incorpora el método de extracción de palabras clave propuesto basado en la fusión de BiLSTM y CRF para extraer palabras clave de las cuatro partes. El PKECC propuesto simula el estilo de comprensión del examinador de patentes extrayendo palabras clave de la descripción. Mientras tanto, el PKECC puede reducir la complejidad de extraer palabras clave de un texto largo y mejorar la precisión de la extracción de palabras clave. El PKECC propuesto se compara con 5 modelos tradicionales o de vanguardia y logra una mejor precisión, puntaje F1 y tasa de recuperación; su tasa de recuperación está por encima del 62%, su precisión alcanza más del 84%, y el puntaje F1 llega al 69%. Además, los resultados experimentales muestran que el PKECC propuesto tiene una mejor universalidad en la extracción de palabras clave.
Descripción
La extracción de palabras clave de patentes es crucial para que los técnicos dominen las tendencias de la tecnología. Los enfoques tradicionales de extracción de palabras clave solo manejan texto corto como el título o las reclamaciones, pero ignoran el significado completo de la descripción. Este documento propone un nuevo método de extracción de palabras clave de patentes basado en la clasificación de corpus (PKECC), que simula los métodos de comprensión de patentes de examinadores de patentes humanos. Primero, un modelo de clasificación de corpus basado en un mecanismo de atención de varios niveles adopta el modelo Bert y un mecanismo de atención jerárquica para clasificar las oraciones de la descripción de la patente en cuatro partes que incluyen campo técnico, problema técnico, solución técnica y efecto técnico. Luego, se incorpora el método de extracción de palabras clave propuesto basado en la fusión de BiLSTM y CRF para extraer palabras clave de las cuatro partes. El PKECC propuesto simula el estilo de comprensión del examinador de patentes extrayendo palabras clave de la descripción. Mientras tanto, el PKECC puede reducir la complejidad de extraer palabras clave de un texto largo y mejorar la precisión de la extracción de palabras clave. El PKECC propuesto se compara con 5 modelos tradicionales o de vanguardia y logra una mejor precisión, puntaje F1 y tasa de recuperación; su tasa de recuperación está por encima del 62%, su precisión alcanza más del 84%, y el puntaje F1 llega al 69%. Además, los resultados experimentales muestran que el PKECC propuesto tiene una mejor universalidad en la extracción de palabras clave.