Ataques de robo de datos contra modelos de lenguaje grandes a través de la inserción de puertas traseras

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Ataques de robo de datos contra modelos de lenguaje grandes a través de la inserción de puertas traseras

Autores: He, Jiaming; Hou, Guanyu; Jia, Xinyue; Chen, Yangyang; Liao, Wenqi; Zhou, Yinhang; Zhou, Rang

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Ataques de robo de datos contra modelos de lenguaje grandes a través de la inserción de puertas traseras

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelos de lenguaje grandes

Seguridad

Preocupaciones de privacidad

Ataques de robo de datos

Puertas traseras

Personalización del modelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones

Los modelos de lenguaje grandes (LLMs) han ganado una inmensa atención y están siendo cada vez más aplicados en varios dominios. Sin embargo, este avance tecnológico plantea serias preocupaciones de seguridad y privacidad. Este documento explora un enfoque novedoso para los ataques de robo de datos al introducir un método adaptativo para extraer datos de entrenamiento privados de LLMs pre-entrenados a través de backdooring. Nuestro método se centra principalmente en el escenario de personalización del modelo y se lleva a cabo en dos fases, incluyendo el entrenamiento del backdoor y la activación del backdoor, lo que permite la extracción de información privada sin conocimiento previo de la arquitectura del modelo o los datos de entrenamiento. Durante la etapa de personalización del modelo, los atacantes inyectan el backdoor en el LLM pre-entrenado envenenando una pequeña proporción del conjunto de datos de entrenamiento. Durante la etapa de inferencia, los atacantes pueden extraer información privada de la base de conocimientos de terceros incorporando el desencadenante de backdoor predefinido. Nuestro método aprovecha el proceso de personalización de los LLMs, inyectando un backdoor sigiloso que puede ser activado después de la implementación para recuperar datos privados. Demostramos la efectividad de nuestro ataque propuesto a través de experimentos extensos, logrando una notable tasa de éxito en el ataque. Experimentos extensos demuestran la efectividad de nuestro ataque de robo en arquitecturas populares de LLM, así como su sigilo durante la inferencia normal.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro