Mejorando la robustez del detector de texto neuronal con ataques y RR-Training

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la robustez del detector de texto neuronal con ataques y RR-Training

Autores: Liang, Gongbo; Guerrero, Jesus; Zheng, Fengbo; Alsmadi, Izzat

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Mejorando la robustez del detector de texto neuronal con ataques y RR-Training

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Técnicas de redes neuronales

Modelos de lenguaje

Generación de contenido

Detector de texto neuronal

Ataque adversarial

Robustez

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

Con técnicas avanzadas de redes neuronales, los modelos de lenguaje pueden generar contenido que parece genuinamente creado por humanos. Este progreso avanzado beneficia a la sociedad de numerosas maneras. Sin embargo, también puede traernos amenazas que no hemos visto antes. Un detector de texto neural es un modelo de clasificación que separa el texto generado por máquina de los escritos por humanos. Desafortunadamente, un detector de texto neural preentrenado puede ser vulnerable a un ataque adversarial, con el objetivo de engañar al detector para que tome decisiones de clasificación incorrectas. A través de este trabajo, proponemos Attacking, un marco general basado en mutaciones que se puede utilizar para evaluar sistemáticamente la robustez de los detectores de texto neurales. Nuestros experimentos demuestran que Attacking identifica de manera efectiva las fallas del detector. Inspirados por la información perspicaz revelada por Attacking, también proponemos una estrategia de RR-training, un método sencillo pero efectivo para mejorar la robustez de los detectores de texto neurales mediante el ajuste fino. En comparación con el método de ajuste fino normal, nuestros experimentos demostraron que RR-training aumentó de manera efectiva la robustez del modelo en hasta un sin aumentar mucho el esfuerzo al ajustar fino un detector de texto neural. Creemos que Attacking y RR-training son herramientas útiles para desarrollar y evaluar modelos de lenguaje neurales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro