Herramienta de Prevención de Abuso de LLM Usando Detección de Ataques de Jailbreak de GCG y Juicio Ético Basado en DistilBERT

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Herramienta de Prevención de Abuso de LLM Usando Detección de Ataques de Jailbreak de GCG y Juicio Ético Basado en DistilBERT

Autores: Chen, Qiuyu; Yamaguchi, Shingo; Yamamoto, Yudai

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Herramienta de Prevención de Abuso de LLM Usando Detección de Ataques de Jailbreak de GCG y Juicio Ético Basado en DistilBERT

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes

Gradiente de coordenadas codicioso

Ataque de jailbreak GCG

Método de detección de alta precisión

Análisis de árbol sintáctico

Modelo DistilBERT

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En los últimos años, el uso indebido de los modelos de lenguaje grandes (LLMs) ha surgido como un problema significativo. Este documento se centra en un método de ataque específico conocido como el ataque de jailbreak de gradiente de coordenadas codicioso (GCG), que obliga a los LLMs a generar respuestas que van más allá de los límites éticos. Hemos desarrollado una herramienta para suprimir el uso inapropiado de los LLMs mediante un método de detección de alta precisión que combina el análisis de árboles sintácticos con la perplejidad del texto generado. Además, la herramienta incorpora uno de los modelos de lenguaje pequeños (SLMs), el modelo DistilBERT, para evaluar la nocividad de las oraciones, evitando así que contenido dañino ingrese al LLM. Los resultados experimentales demuestran que la herramienta detecta eficazmente los ataques de jailbreak GCG y contribuye al uso seguro de los LLMs. En los resultados de las pruebas, la tasa de éxito de la defensa alcanzó el 90.8%.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro