logo móvil
Contáctanos

Herramienta de Prevención de Abuso de LLM Usando Detección de Ataques de Jailbreak de GCG y Juicio Ético Basado en DistilBERT

Autores: Chen, Qiuyu; Yamaguchi, Shingo; Yamamoto, Yudai

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Herramienta de Prevención de Abuso de LLM Usando Detección de Ataques de Jailbreak de GCG y Juicio Ético Basado en DistilBERT


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes
Gradiente de coordenadas codicioso
Ataque de jailbreak GCG
Método de detección de alta precisión
Análisis de árbol sintáctico
Modelo DistilBERT

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En los últimos años, el uso indebido de los modelos de lenguaje grandes (LLMs) ha surgido como un problema significativo. Este documento se centra en un método de ataque específico conocido como el ataque de jailbreak de gradiente de coordenadas codicioso (GCG), que obliga a los LLMs a generar respuestas que van más allá de los límites éticos. Hemos desarrollado una herramienta para suprimir el uso inapropiado de los LLMs mediante un método de detección de alta precisión que combina el análisis de árboles sintácticos con la perplejidad del texto generado. Además, la herramienta incorpora uno de los modelos de lenguaje pequeños (SLMs), el modelo DistilBERT, para evaluar la nocividad de las oraciones, evitando así que contenido dañino ingrese al LLM. Los resultados experimentales demuestran que la herramienta detecta eficazmente los ataques de jailbreak GCG y contribuye al uso seguro de los LLMs. En los resultados de las pruebas, la tasa de éxito de la defensa alcanzó el 90.8%.

Otros recursos que podrían interesarte

Temas Virtualpro