Mejorando la robustez del detector de texto neuronal con ataques y RR-Training
Autores: Liang, Gongbo; Guerrero, Jesus; Zheng, Fengbo; Alsmadi, Izzat
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorando la robustez del detector de texto neuronal con ataques y RR-Training
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Técnicas de redes neuronales
Modelos de lenguaje
Generación de contenido
Detector de texto neuronal
Ataque adversarial
Robustez
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Con técnicas avanzadas de redes neuronales, los modelos de lenguaje pueden generar contenido que parece genuinamente creado por humanos. Este progreso avanzado beneficia a la sociedad de numerosas maneras. Sin embargo, también puede traernos amenazas que no hemos visto antes. Un detector de texto neural es un modelo de clasificación que separa el texto generado por máquina de los escritos por humanos. Desafortunadamente, un detector de texto neural preentrenado puede ser vulnerable a un ataque adversarial, con el objetivo de engañar al detector para que tome decisiones de clasificación incorrectas. A través de este trabajo, proponemos Attacking, un marco general basado en mutaciones que se puede utilizar para evaluar sistemáticamente la robustez de los detectores de texto neurales. Nuestros experimentos demuestran que Attacking identifica de manera efectiva las fallas del detector. Inspirados por la información perspicaz revelada por Attacking, también proponemos una estrategia de RR-training, un método sencillo pero efectivo para mejorar la robustez de los detectores de texto neurales mediante el ajuste fino. En comparación con el método de ajuste fino normal, nuestros experimentos demostraron que RR-training aumentó de manera efectiva la robustez del modelo en hasta un sin aumentar mucho el esfuerzo al ajustar fino un detector de texto neural. Creemos que Attacking y RR-training son herramientas útiles para desarrollar y evaluar modelos de lenguaje neurales.
Descripción
Con técnicas avanzadas de redes neuronales, los modelos de lenguaje pueden generar contenido que parece genuinamente creado por humanos. Este progreso avanzado beneficia a la sociedad de numerosas maneras. Sin embargo, también puede traernos amenazas que no hemos visto antes. Un detector de texto neural es un modelo de clasificación que separa el texto generado por máquina de los escritos por humanos. Desafortunadamente, un detector de texto neural preentrenado puede ser vulnerable a un ataque adversarial, con el objetivo de engañar al detector para que tome decisiones de clasificación incorrectas. A través de este trabajo, proponemos Attacking, un marco general basado en mutaciones que se puede utilizar para evaluar sistemáticamente la robustez de los detectores de texto neurales. Nuestros experimentos demuestran que Attacking identifica de manera efectiva las fallas del detector. Inspirados por la información perspicaz revelada por Attacking, también proponemos una estrategia de RR-training, un método sencillo pero efectivo para mejorar la robustez de los detectores de texto neurales mediante el ajuste fino. En comparación con el método de ajuste fino normal, nuestros experimentos demostraron que RR-training aumentó de manera efectiva la robustez del modelo en hasta un sin aumentar mucho el esfuerzo al ajustar fino un detector de texto neural. Creemos que Attacking y RR-training son herramientas útiles para desarrollar y evaluar modelos de lenguaje neurales.