Tibw: marca de agua de puerta trasera independiente de la tarea con resistencia al ajuste fino para modelos de lenguaje pre-entrenados

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Tibw: marca de agua de puerta trasera independiente de la tarea con resistencia al ajuste fino para modelos de lenguaje pre-entrenados

Autores: Mo, Weichuan; Chen, Kongyang; Xiao, Yatie

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Tibw: marca de agua de puerta trasera independiente de la tarea con resistencia al ajuste fino para modelos de lenguaje pre-entrenados

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Modelos de lenguaje pre-entrenados

Esquema de marca de agua

TIBW

Marcas de agua de puerta trasera

Ajuste fino

Protección de propiedad intelectual

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

Los modelos de lenguaje pre-entrenados como BERT, GPT-3 y T5 han logrado avances significativos en el procesamiento del lenguaje natural (NLP). Sin embargo, su adopción generalizada plantea preocupaciones sobre la protección de la propiedad intelectual (PI), ya que su uso no autorizado puede socavar la innovación. El marcado de agua ha surgido como una solución prometedora para la verificación de la propiedad del modelo, pero su aplicación a modelos de NLP presenta desafíos únicos, especialmente en garantizar la robustez contra el ajuste fino y prevenir la interferencia con tareas posteriores. Este artículo presenta un esquema de marcado de agua novedoso, TIBW (Marcado de Agua de Puerta Trasera Independiente de la Tarea), que incrusta marcas de agua de puerta trasera robustas e independientes de la tarea en modelos de lenguaje pre-entrenados. Al implementar un Algoritmo de Búsqueda de Pares de Palabras de Desencadenante-Objetivo que selecciona pares de palabras de desencadenante-objetivo con máxima disimilitud semántica, nuestro enfoque garantiza que la marca de agua siga siendo efectiva incluso después de un ajuste fino extensivo. Además, presentamos la Incrustación de Relación de Parámetros (PRE) para modificar sutilmente la capa de incrustación del modelo, reforzando la asociación entre las palabras de desencadenante y objetivo sin degradar el rendimiento del modelo. También diseñamos un proceso de verificación de marca de agua integral que evalúa la consistencia del comportamiento de la tarea, cuantificada por la Tasa de Éxito de Incrustación de la Marca de Agua (WESR). Nuestros experimentos en cinco tareas de NLP de referencia demuestran que el método de marcado de agua propuesto mantiene un rendimiento cercano a la línea base en entradas limpias, al tiempo que logra un alto WESR, superando a las líneas base existentes tanto en robustez como en sigilo. Además, la marca de agua persiste de manera confiable incluso después de un ajuste fino adicional, destacando su resistencia contra posibles intentos de eliminación de la marca de agua. Este trabajo proporciona un mecanismo de protección de PI seguro y confiable para modelos de NLP, garantizando la integridad de la marca de agua en diversas aplicaciones.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro