Clasificación de tweets tóxicos en árabe: aprovechando el modelo AraBERT
Autores: Koshiry, Amr Mohamed El; Eliwa, Entesar Hamed I.; Abd El-Hafeez, Tarek; Omar, Ahmed
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Clasificación de tweets tóxicos en árabe: aprovechando el modelo AraBERT
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Plataformas de redes sociales
Comunicación
Contenido tóxico
Textos en árabe
Conjunto de datos
Clasificación de tweets
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
Las plataformas de redes sociales se han convertido en el principal medio de comunicación y compartición de información, facilitando intercambios interactivos entre usuarios. Desafortunadamente, estas plataformas también presencian la difusión de contenido inapropiado y tóxico, incluyendo discursos de odio e insultos. Aunque se han realizado esfuerzos significativos para clasificar contenido tóxico en el idioma inglés, no se ha prestado el mismo nivel de atención a los textos en árabe. Este estudio aborda esta brecha mediante la construcción de un conjunto de datos árabe estandarizado diseñado específicamente para la clasificación de tweets tóxicos. El conjunto de datos está anotado automáticamente utilizando la API de Perspectiva de Google y la experiencia de tres hablantes nativos de árabe y lingüistas. Para evaluar el rendimiento de diferentes modelos, realizamos una serie de experimentos utilizando siete modelos: memoria a largo plazo (LSTM), LSTM bidireccional, una red neuronal convolucional, una unidad recurrente con compuertas (GRU), GRU bidireccional, representaciones de codificador bidireccional multilingüe de transformers, y AraBERT. Además, empleamos técnicas de incrustación de palabras. Nuestros hallazgos experimentales demuestran que el modelo AraBERT ajustado supera el rendimiento de otros modelos, logrando una impresionante precisión de 0.9960. Notablemente, este valor de precisión supera en rendimiento enfoques similares reportados en literatura reciente. Este estudio representa un avance significativo en la clasificación de tweets tóxicos en árabe, arrojando luz sobre la importancia de abordar la toxicidad en las plataformas de redes sociales considerando diferentes idiomas y culturas.
Descripción
Las plataformas de redes sociales se han convertido en el principal medio de comunicación y compartición de información, facilitando intercambios interactivos entre usuarios. Desafortunadamente, estas plataformas también presencian la difusión de contenido inapropiado y tóxico, incluyendo discursos de odio e insultos. Aunque se han realizado esfuerzos significativos para clasificar contenido tóxico en el idioma inglés, no se ha prestado el mismo nivel de atención a los textos en árabe. Este estudio aborda esta brecha mediante la construcción de un conjunto de datos árabe estandarizado diseñado específicamente para la clasificación de tweets tóxicos. El conjunto de datos está anotado automáticamente utilizando la API de Perspectiva de Google y la experiencia de tres hablantes nativos de árabe y lingüistas. Para evaluar el rendimiento de diferentes modelos, realizamos una serie de experimentos utilizando siete modelos: memoria a largo plazo (LSTM), LSTM bidireccional, una red neuronal convolucional, una unidad recurrente con compuertas (GRU), GRU bidireccional, representaciones de codificador bidireccional multilingüe de transformers, y AraBERT. Además, empleamos técnicas de incrustación de palabras. Nuestros hallazgos experimentales demuestran que el modelo AraBERT ajustado supera el rendimiento de otros modelos, logrando una impresionante precisión de 0.9960. Notablemente, este valor de precisión supera en rendimiento enfoques similares reportados en literatura reciente. Este estudio representa un avance significativo en la clasificación de tweets tóxicos en árabe, arrojando luz sobre la importancia de abordar la toxicidad en las plataformas de redes sociales considerando diferentes idiomas y culturas.