logo móvil
Contáctanos

Clasificación de tweets tóxicos en árabe: aprovechando el modelo AraBERT

Autores: Koshiry, Amr Mohamed El; Eliwa, Entesar Hamed I.; Abd El-Hafeez, Tarek; Omar, Ahmed

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Clasificación de tweets tóxicos en árabe: aprovechando el modelo AraBERT


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Plataformas de redes sociales
Comunicación
Contenido tóxico
Textos en árabe
Conjunto de datos
Clasificación de tweets

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones


Descripción
Las plataformas de redes sociales se han convertido en el principal medio de comunicación y compartición de información, facilitando intercambios interactivos entre usuarios. Desafortunadamente, estas plataformas también presencian la difusión de contenido inapropiado y tóxico, incluyendo discursos de odio e insultos. Aunque se han realizado esfuerzos significativos para clasificar contenido tóxico en el idioma inglés, no se ha prestado el mismo nivel de atención a los textos en árabe. Este estudio aborda esta brecha mediante la construcción de un conjunto de datos árabe estandarizado diseñado específicamente para la clasificación de tweets tóxicos. El conjunto de datos está anotado automáticamente utilizando la API de Perspectiva de Google y la experiencia de tres hablantes nativos de árabe y lingüistas. Para evaluar el rendimiento de diferentes modelos, realizamos una serie de experimentos utilizando siete modelos: memoria a largo plazo (LSTM), LSTM bidireccional, una red neuronal convolucional, una unidad recurrente con compuertas (GRU), GRU bidireccional, representaciones de codificador bidireccional multilingüe de transformers, y AraBERT. Además, empleamos técnicas de incrustación de palabras. Nuestros hallazgos experimentales demuestran que el modelo AraBERT ajustado supera el rendimiento de otros modelos, logrando una impresionante precisión de 0.9960. Notablemente, este valor de precisión supera en rendimiento enfoques similares reportados en literatura reciente. Este estudio representa un avance significativo en la clasificación de tweets tóxicos en árabe, arrojando luz sobre la importancia de abordar la toxicidad en las plataformas de redes sociales considerando diferentes idiomas y culturas.

Otros recursos que podrían interesarte

Temas Virtualpro