Métodos de aumento de datos para mejorar la robustez en tareas de clasificación de texto
Autores: Tang, Huidong; Kamei, Sayaka; Morimoto, Yasuhiko
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Métodos de aumento de datos para mejorar la robustez en tareas de clasificación de texto
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Clasificación de texto
Modelos de aprendizaje profundo
Modelos pre-entrenados
Métodos de aumento de datos
Robustez
Ataques adversarios
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
La clasificación de texto es ampliamente estudiada en el procesamiento del lenguaje natural (NLP). Los modelos de aprendizaje profundo, incluidos los grandes modelos pre-entrenados como BERT y DistilBERT, han logrado resultados impresionantes en tareas de clasificación de texto. Sin embargo, la robustez de estos modelos ante ataques adversarios sigue siendo un área de preocupación. Para abordar esta preocupación, proponemos tres métodos de aumento de datos para mejorar la robustez de dichos modelos pre-entrenados. Evaluamos nuestros métodos en cuatro conjuntos de datos de clasificación de texto mediante el ajuste fino de DistilBERT en los conjuntos de datos aumentados y exponiendo los modelos resultantes a ataques adversarios para evaluar su robustez. Además de mejorar la robustez, nuestros métodos propuestos pueden mejorar la precisión y la puntuación F1 en tres conjuntos de datos. También realizamos experimentos de comparación con dos métodos de aumento de datos existentes. Descubrimos que uno de nuestros métodos propuestos muestra una mejora similar en términos de rendimiento, pero todos demuestran una mejora de robustez superior.
Descripción
La clasificación de texto es ampliamente estudiada en el procesamiento del lenguaje natural (NLP). Los modelos de aprendizaje profundo, incluidos los grandes modelos pre-entrenados como BERT y DistilBERT, han logrado resultados impresionantes en tareas de clasificación de texto. Sin embargo, la robustez de estos modelos ante ataques adversarios sigue siendo un área de preocupación. Para abordar esta preocupación, proponemos tres métodos de aumento de datos para mejorar la robustez de dichos modelos pre-entrenados. Evaluamos nuestros métodos en cuatro conjuntos de datos de clasificación de texto mediante el ajuste fino de DistilBERT en los conjuntos de datos aumentados y exponiendo los modelos resultantes a ataques adversarios para evaluar su robustez. Además de mejorar la robustez, nuestros métodos propuestos pueden mejorar la precisión y la puntuación F1 en tres conjuntos de datos. También realizamos experimentos de comparación con dos métodos de aumento de datos existentes. Descubrimos que uno de nuestros métodos propuestos muestra una mejora similar en términos de rendimiento, pero todos demuestran una mejora de robustez superior.