Herramienta de Prevención de Abuso de LLM Usando Detección de Ataques de Jailbreak de GCG y Juicio Ético Basado en DistilBERT
Autores: Chen, Qiuyu; Yamaguchi, Shingo; Yamamoto, Yudai
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Herramienta de Prevención de Abuso de LLM Usando Detección de Ataques de Jailbreak de GCG y Juicio Ético Basado en DistilBERT
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje grandes
Gradiente de coordenadas codicioso
Ataque de jailbreak GCG
Método de detección de alta precisión
Análisis de árbol sintáctico
Modelo DistilBERT
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los últimos años, el uso indebido de los modelos de lenguaje grandes (LLMs) ha surgido como un problema significativo. Este documento se centra en un método de ataque específico conocido como el ataque de jailbreak de gradiente de coordenadas codicioso (GCG), que obliga a los LLMs a generar respuestas que van más allá de los límites éticos. Hemos desarrollado una herramienta para suprimir el uso inapropiado de los LLMs mediante un método de detección de alta precisión que combina el análisis de árboles sintácticos con la perplejidad del texto generado. Además, la herramienta incorpora uno de los modelos de lenguaje pequeños (SLMs), el modelo DistilBERT, para evaluar la nocividad de las oraciones, evitando así que contenido dañino ingrese al LLM. Los resultados experimentales demuestran que la herramienta detecta eficazmente los ataques de jailbreak GCG y contribuye al uso seguro de los LLMs. En los resultados de las pruebas, la tasa de éxito de la defensa alcanzó el 90.8%.
Descripción
En los últimos años, el uso indebido de los modelos de lenguaje grandes (LLMs) ha surgido como un problema significativo. Este documento se centra en un método de ataque específico conocido como el ataque de jailbreak de gradiente de coordenadas codicioso (GCG), que obliga a los LLMs a generar respuestas que van más allá de los límites éticos. Hemos desarrollado una herramienta para suprimir el uso inapropiado de los LLMs mediante un método de detección de alta precisión que combina el análisis de árboles sintácticos con la perplejidad del texto generado. Además, la herramienta incorpora uno de los modelos de lenguaje pequeños (SLMs), el modelo DistilBERT, para evaluar la nocividad de las oraciones, evitando así que contenido dañino ingrese al LLM. Los resultados experimentales demuestran que la herramienta detecta eficazmente los ataques de jailbreak GCG y contribuye al uso seguro de los LLMs. En los resultados de las pruebas, la tasa de éxito de la defensa alcanzó el 90.8%.