logo móvil
Contáctanos

Ataques de robo de datos contra modelos de lenguaje grandes a través de la inserción de puertas traseras

Autores: He, Jiaming; Hou, Guanyu; Jia, Xinyue; Chen, Yangyang; Liao, Wenqi; Zhou, Yinhang; Zhou, Rang

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Ataques de robo de datos contra modelos de lenguaje grandes a través de la inserción de puertas traseras


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelos de lenguaje grandes
Seguridad
Preocupaciones de privacidad
Ataques de robo de datos
Puertas traseras
Personalización del modelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones


Descripción
Los modelos de lenguaje grandes (LLMs) han ganado una inmensa atención y están siendo cada vez más aplicados en varios dominios. Sin embargo, este avance tecnológico plantea serias preocupaciones de seguridad y privacidad. Este documento explora un enfoque novedoso para los ataques de robo de datos al introducir un método adaptativo para extraer datos de entrenamiento privados de LLMs pre-entrenados a través de backdooring. Nuestro método se centra principalmente en el escenario de personalización del modelo y se lleva a cabo en dos fases, incluyendo el entrenamiento del backdoor y la activación del backdoor, lo que permite la extracción de información privada sin conocimiento previo de la arquitectura del modelo o los datos de entrenamiento. Durante la etapa de personalización del modelo, los atacantes inyectan el backdoor en el LLM pre-entrenado envenenando una pequeña proporción del conjunto de datos de entrenamiento. Durante la etapa de inferencia, los atacantes pueden extraer información privada de la base de conocimientos de terceros incorporando el desencadenante de backdoor predefinido. Nuestro método aprovecha el proceso de personalización de los LLMs, inyectando un backdoor sigiloso que puede ser activado después de la implementación para recuperar datos privados. Demostramos la efectividad de nuestro ataque propuesto a través de experimentos extensos, logrando una notable tasa de éxito en el ataque. Experimentos extensos demuestran la efectividad de nuestro ataque de robo en arquitecturas populares de LLM, así como su sigilo durante la inferencia normal.

Otros recursos que podrían interesarte

Temas Virtualpro