Hacia el equilibrio de dominio basado en la descomposición semántica para la evaluación de relevancia de patentes
Autores: Wang, Fei; Zhou, Yang; Chen, Jianjun; Zhang, Teng
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Hacia el equilibrio de dominio basado en la descomposición semántica para la evaluación de relevancia de patentes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estudios
Modelos de lenguaje preentrenados
Evaluación de relevancia de patentes
Sensible al dominio
Modelado semántico
DSSDNet
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los estudios recientes aprovechan cada vez más los modelos de lenguaje preentrenados (PLMs) para la evaluación de la relevancia de patentes. En la práctica, si una patente de consulta y la patente candidata comparten el dominio técnico es un factor crítico en la evaluación de relevancia. Los rerankers basados en PLM existentes suelen ignorar la información del dominio, lo que lleva a un modelado semántico insensible al dominio. En particular, las discrepancias de distribución entre una consulta y la candidata con diferentes etiquetas de dominio introducen sesgo de dominio. Para abordar estos problemas, proponemos una Red de Descomposición Semántica Sensible al Dominio (DSSDNet), que incluye descomposición semántica nativa, regresión de fusión de múltiples campos y clasificación por pares con minería de negativos difíciles, para la evaluación de la relevancia de patentes. Toma una consulta y la candidata para generar la representación técnica que se descompone en partes sensibles e insensibles al dominio a través del mecanismo de compuerta con tres restricciones. Y se diseña una pérdida focal equilibrada por dominio para eliminar el sesgo de dominio existente en la parte sensible al dominio. Además, se introduce la regresión de fusión de múltiples campos para modelar la semántica técnica general incorporando tanto partes sensibles como insensibles al dominio, junto con información del dominio. En cuanto a la clasificación por pares con minería de negativos difíciles, optimiza el objetivo de re-clasificación desde una perspectiva de clasificación holística al aumentar el margen entre instancias positivas y negativas. Los experimentos en el CLEF-IP 2011 público demuestran que DSSDNet supera consistentemente a fuertes líneas base, logrando aumentos del 2.5-17% en Recall, del 2-7% en MAP y del 3-15% en PRES en diferentes niveles de corte. Estos resultados indican que modelar explícitamente las semánticas sensibles e insensibles al dominio es una forma efectiva de mitigar el sesgo de dominio y mejorar el rendimiento de re-clasificación de patentes.
Descripción
Los estudios recientes aprovechan cada vez más los modelos de lenguaje preentrenados (PLMs) para la evaluación de la relevancia de patentes. En la práctica, si una patente de consulta y la patente candidata comparten el dominio técnico es un factor crítico en la evaluación de relevancia. Los rerankers basados en PLM existentes suelen ignorar la información del dominio, lo que lleva a un modelado semántico insensible al dominio. En particular, las discrepancias de distribución entre una consulta y la candidata con diferentes etiquetas de dominio introducen sesgo de dominio. Para abordar estos problemas, proponemos una Red de Descomposición Semántica Sensible al Dominio (DSSDNet), que incluye descomposición semántica nativa, regresión de fusión de múltiples campos y clasificación por pares con minería de negativos difíciles, para la evaluación de la relevancia de patentes. Toma una consulta y la candidata para generar la representación técnica que se descompone en partes sensibles e insensibles al dominio a través del mecanismo de compuerta con tres restricciones. Y se diseña una pérdida focal equilibrada por dominio para eliminar el sesgo de dominio existente en la parte sensible al dominio. Además, se introduce la regresión de fusión de múltiples campos para modelar la semántica técnica general incorporando tanto partes sensibles como insensibles al dominio, junto con información del dominio. En cuanto a la clasificación por pares con minería de negativos difíciles, optimiza el objetivo de re-clasificación desde una perspectiva de clasificación holística al aumentar el margen entre instancias positivas y negativas. Los experimentos en el CLEF-IP 2011 público demuestran que DSSDNet supera consistentemente a fuertes líneas base, logrando aumentos del 2.5-17% en Recall, del 2-7% en MAP y del 3-15% en PRES en diferentes niveles de corte. Estos resultados indican que modelar explícitamente las semánticas sensibles e insensibles al dominio es una forma efectiva de mitigar el sesgo de dominio y mejorar el rendimiento de re-clasificación de patentes.