Investigando los impactos de los errores ortográficos en la búsqueda de patentes mediante la combinación de herramientas de lenguaje natural y enfoques basados en reglas
Autores: Russo, Davide; Spreafico, Christian; Avogadri, Simone; Precorvi, Andrea
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Investigando los impactos de los errores ortográficos en la búsqueda de patentes mediante la combinación de herramientas de lenguaje natural y enfoques basados en reglas
Categoría
Gestión y administración
Subcategoría
Gestión del conocimiento
Palabras clave
Información de patentes
Estrategias de búsqueda
Errores tipográficos
Recuperación
Herramientas
Aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
Entre todas las fuentes de información técnica, la información de patentes es una de las más ricas y completas. Saber cómo buscar en esta masa de documentos se está volviendo cada vez más crucial. Sin embargo, muchos usuarios tienen un conocimiento limitado sobre patentes y estrategias de búsqueda, por lo que deben utilizar enfoques intuitivos, a menudo aproximados, que pueden llevar a búsquedas muy inexactas y ser laboriosas. Para abordar este problema, existen herramientas que ayudan a expandir las consultas para aumentar el recuerdo y no perder buenos documentos; sin embargo, sigue siendo un problema abierto el manejo de estrategias basadas en errores tipográficos. Típicamente, el problema de la presencia de errores tipográficos en el texto de patentes es subestimado incluso por expertos en el campo, y no hay una funcionalidad específica para manejarlo en las herramientas disponibles, tanto gratuitas como de pago. El objetivo del artículo es concienciar sobre las dificultades de elaborar una estrategia de patentes adecuada que también tenga en cuenta la posible presencia de errores tipográficos. Es importante saber dónde esperamos encontrarlos y cuánto pueden afectar el resultado final. En particular, se elige dividir los errores tipográficos en categorías, distinguiendo entre errores asociados con una palabra clave genérica o de varias palabras y errores en acrónimos, fórmulas químicas, nombres de solicitantes, inventores o nombres de fórmulas o teoremas específicos. Se proporciona al menos un caso de ejemplo para cada categoría, mostrando cuándo y cómo puede afectar el resultado. Finalmente, se sugiere un enfoque integrado que combina modelos de incrustación de palabras y contextuales basados en aprendizaje profundo con un algoritmo basado en reglas que utiliza comodines y operadores de truncamiento para corregir la consulta, sugiriendo automáticamente los errores tipográficos más consistentes, logrando así un resultado más preciso y confiable.
Descripción
Entre todas las fuentes de información técnica, la información de patentes es una de las más ricas y completas. Saber cómo buscar en esta masa de documentos se está volviendo cada vez más crucial. Sin embargo, muchos usuarios tienen un conocimiento limitado sobre patentes y estrategias de búsqueda, por lo que deben utilizar enfoques intuitivos, a menudo aproximados, que pueden llevar a búsquedas muy inexactas y ser laboriosas. Para abordar este problema, existen herramientas que ayudan a expandir las consultas para aumentar el recuerdo y no perder buenos documentos; sin embargo, sigue siendo un problema abierto el manejo de estrategias basadas en errores tipográficos. Típicamente, el problema de la presencia de errores tipográficos en el texto de patentes es subestimado incluso por expertos en el campo, y no hay una funcionalidad específica para manejarlo en las herramientas disponibles, tanto gratuitas como de pago. El objetivo del artículo es concienciar sobre las dificultades de elaborar una estrategia de patentes adecuada que también tenga en cuenta la posible presencia de errores tipográficos. Es importante saber dónde esperamos encontrarlos y cuánto pueden afectar el resultado final. En particular, se elige dividir los errores tipográficos en categorías, distinguiendo entre errores asociados con una palabra clave genérica o de varias palabras y errores en acrónimos, fórmulas químicas, nombres de solicitantes, inventores o nombres de fórmulas o teoremas específicos. Se proporciona al menos un caso de ejemplo para cada categoría, mostrando cuándo y cómo puede afectar el resultado. Finalmente, se sugiere un enfoque integrado que combina modelos de incrustación de palabras y contextuales basados en aprendizaje profundo con un algoritmo basado en reglas que utiliza comodines y operadores de truncamiento para corregir la consulta, sugiriendo automáticamente los errores tipográficos más consistentes, logrando así un resultado más preciso y confiable.