Análisis de palabras clave de patente utilizando modelado de regresión basado en la función de distribución acumulativa de cuantiles
Autores: Park, Sangsung; Jun, Sunghae
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Análisis de palabras clave de patente utilizando modelado de regresión basado en la función de distribución acumulativa de cuantiles
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Patentes
Tecnología
Extracción de palabras clave
Minería de texto
Análisis de datos de patentes
Modelado de regresión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Las patentes contienen información detallada sobre tecnologías investigadas y desarrolladas. Analizamos documentos de patentes para entender la tecnología en un dominio dado. Para el análisis de datos de patentes, extraímos las palabras clave de los documentos de patentes utilizando técnicas de minería de texto. A continuación, construimos una matriz de documentos de patentes-palabras clave utilizando las palabras clave de las patentes y analizamos los datos de la matriz utilizando métodos estadísticos. Cada elemento de la matriz representa la frecuencia de una palabra clave que aparece en un documento de patente. En general, la mayoría de los elementos eran cero porque la palabra clave se convierte en una columna de la matriz incluso si aparece en un solo documento. Debido a este problema de inflación de ceros, experimentamos dificultades para analizar las palabras clave de las patentes utilizando métodos estadísticos existentes como el análisis de regresión lineal. El propósito de este documento es construir un modelo estadístico para resolver el problema de inflación de ceros. En este documento, proponemos un modelo de regresión basado en la función de distribución acumulativa cuantil para resolver este problema que ocurre en el análisis de palabras clave de patentes. Realizamos experimentos para mostrar el rendimiento de nuestro método propuesto utilizando documentos de patentes relacionados con la tecnología blockchain. Comparamos el modelado de regresión basado en una función de distribución acumulativa cuantil con modelos convencionales como el modelado de regresión lineal. Esperamos que este documento contribuya a superar el problema de inflación de ceros en el análisis de palabras clave de patentes realizado en diversos campos tecnológicos.
Descripción
Las patentes contienen información detallada sobre tecnologías investigadas y desarrolladas. Analizamos documentos de patentes para entender la tecnología en un dominio dado. Para el análisis de datos de patentes, extraímos las palabras clave de los documentos de patentes utilizando técnicas de minería de texto. A continuación, construimos una matriz de documentos de patentes-palabras clave utilizando las palabras clave de las patentes y analizamos los datos de la matriz utilizando métodos estadísticos. Cada elemento de la matriz representa la frecuencia de una palabra clave que aparece en un documento de patente. En general, la mayoría de los elementos eran cero porque la palabra clave se convierte en una columna de la matriz incluso si aparece en un solo documento. Debido a este problema de inflación de ceros, experimentamos dificultades para analizar las palabras clave de las patentes utilizando métodos estadísticos existentes como el análisis de regresión lineal. El propósito de este documento es construir un modelo estadístico para resolver el problema de inflación de ceros. En este documento, proponemos un modelo de regresión basado en la función de distribución acumulativa cuantil para resolver este problema que ocurre en el análisis de palabras clave de patentes. Realizamos experimentos para mostrar el rendimiento de nuestro método propuesto utilizando documentos de patentes relacionados con la tecnología blockchain. Comparamos el modelado de regresión basado en una función de distribución acumulativa cuantil con modelos convencionales como el modelado de regresión lineal. Esperamos que este documento contribuya a superar el problema de inflación de ceros en el análisis de palabras clave de patentes realizado en diversos campos tecnológicos.