Tibw: marca de agua de puerta trasera independiente de la tarea con resistencia al ajuste fino para modelos de lenguaje pre-entrenados
Autores: Mo, Weichuan; Chen, Kongyang; Xiao, Yatie
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Tibw: marca de agua de puerta trasera independiente de la tarea con resistencia al ajuste fino para modelos de lenguaje pre-entrenados
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Modelos de lenguaje pre-entrenados
Esquema de marca de agua
TIBW
Marcas de agua de puerta trasera
Ajuste fino
Protección de propiedad intelectual
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Los modelos de lenguaje pre-entrenados como BERT, GPT-3 y T5 han logrado avances significativos en el procesamiento del lenguaje natural (NLP). Sin embargo, su adopción generalizada plantea preocupaciones sobre la protección de la propiedad intelectual (PI), ya que su uso no autorizado puede socavar la innovación. El marcado de agua ha surgido como una solución prometedora para la verificación de la propiedad del modelo, pero su aplicación a modelos de NLP presenta desafíos únicos, especialmente en garantizar la robustez contra el ajuste fino y prevenir la interferencia con tareas posteriores. Este artículo presenta un esquema de marcado de agua novedoso, TIBW (Marcado de Agua de Puerta Trasera Independiente de la Tarea), que incrusta marcas de agua de puerta trasera robustas e independientes de la tarea en modelos de lenguaje pre-entrenados. Al implementar un Algoritmo de Búsqueda de Pares de Palabras de Desencadenante-Objetivo que selecciona pares de palabras de desencadenante-objetivo con máxima disimilitud semántica, nuestro enfoque garantiza que la marca de agua siga siendo efectiva incluso después de un ajuste fino extensivo. Además, presentamos la Incrustación de Relación de Parámetros (PRE) para modificar sutilmente la capa de incrustación del modelo, reforzando la asociación entre las palabras de desencadenante y objetivo sin degradar el rendimiento del modelo. También diseñamos un proceso de verificación de marca de agua integral que evalúa la consistencia del comportamiento de la tarea, cuantificada por la Tasa de Éxito de Incrustación de la Marca de Agua (WESR). Nuestros experimentos en cinco tareas de NLP de referencia demuestran que el método de marcado de agua propuesto mantiene un rendimiento cercano a la línea base en entradas limpias, al tiempo que logra un alto WESR, superando a las líneas base existentes tanto en robustez como en sigilo. Además, la marca de agua persiste de manera confiable incluso después de un ajuste fino adicional, destacando su resistencia contra posibles intentos de eliminación de la marca de agua. Este trabajo proporciona un mecanismo de protección de PI seguro y confiable para modelos de NLP, garantizando la integridad de la marca de agua en diversas aplicaciones.
Descripción
Los modelos de lenguaje pre-entrenados como BERT, GPT-3 y T5 han logrado avances significativos en el procesamiento del lenguaje natural (NLP). Sin embargo, su adopción generalizada plantea preocupaciones sobre la protección de la propiedad intelectual (PI), ya que su uso no autorizado puede socavar la innovación. El marcado de agua ha surgido como una solución prometedora para la verificación de la propiedad del modelo, pero su aplicación a modelos de NLP presenta desafíos únicos, especialmente en garantizar la robustez contra el ajuste fino y prevenir la interferencia con tareas posteriores. Este artículo presenta un esquema de marcado de agua novedoso, TIBW (Marcado de Agua de Puerta Trasera Independiente de la Tarea), que incrusta marcas de agua de puerta trasera robustas e independientes de la tarea en modelos de lenguaje pre-entrenados. Al implementar un Algoritmo de Búsqueda de Pares de Palabras de Desencadenante-Objetivo que selecciona pares de palabras de desencadenante-objetivo con máxima disimilitud semántica, nuestro enfoque garantiza que la marca de agua siga siendo efectiva incluso después de un ajuste fino extensivo. Además, presentamos la Incrustación de Relación de Parámetros (PRE) para modificar sutilmente la capa de incrustación del modelo, reforzando la asociación entre las palabras de desencadenante y objetivo sin degradar el rendimiento del modelo. También diseñamos un proceso de verificación de marca de agua integral que evalúa la consistencia del comportamiento de la tarea, cuantificada por la Tasa de Éxito de Incrustación de la Marca de Agua (WESR). Nuestros experimentos en cinco tareas de NLP de referencia demuestran que el método de marcado de agua propuesto mantiene un rendimiento cercano a la línea base en entradas limpias, al tiempo que logra un alto WESR, superando a las líneas base existentes tanto en robustez como en sigilo. Además, la marca de agua persiste de manera confiable incluso después de un ajuste fino adicional, destacando su resistencia contra posibles intentos de eliminación de la marca de agua. Este trabajo proporciona un mecanismo de protección de PI seguro y confiable para modelos de NLP, garantizando la integridad de la marca de agua en diversas aplicaciones.