logo móvil
Contáctanos

Mejorando la robustez del detector de texto neuronal con ataques y RR-Training

Autores: Liang, Gongbo; Guerrero, Jesus; Zheng, Fengbo; Alsmadi, Izzat

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Mejorando la robustez del detector de texto neuronal con ataques y RR-Training


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Técnicas de redes neuronales
Modelos de lenguaje
Generación de contenido
Detector de texto neuronal
Ataque adversarial
Robustez

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
Con técnicas avanzadas de redes neuronales, los modelos de lenguaje pueden generar contenido que parece genuinamente creado por humanos. Este progreso avanzado beneficia a la sociedad de numerosas maneras. Sin embargo, también puede traernos amenazas que no hemos visto antes. Un detector de texto neural es un modelo de clasificación que separa el texto generado por máquina de los escritos por humanos. Desafortunadamente, un detector de texto neural preentrenado puede ser vulnerable a un ataque adversarial, con el objetivo de engañar al detector para que tome decisiones de clasificación incorrectas. A través de este trabajo, proponemos Attacking, un marco general basado en mutaciones que se puede utilizar para evaluar sistemáticamente la robustez de los detectores de texto neurales. Nuestros experimentos demuestran que Attacking identifica de manera efectiva las fallas del detector. Inspirados por la información perspicaz revelada por Attacking, también proponemos una estrategia de RR-training, un método sencillo pero efectivo para mejorar la robustez de los detectores de texto neurales mediante el ajuste fino. En comparación con el método de ajuste fino normal, nuestros experimentos demostraron que RR-training aumentó de manera efectiva la robustez del modelo en hasta un sin aumentar mucho el esfuerzo al ajustar fino un detector de texto neural. Creemos que Attacking y RR-training son herramientas útiles para desarrollar y evaluar modelos de lenguaje neurales.

Otros recursos que podrían interesarte

Temas Virtualpro