Clasificación de tweets tóxicos en árabe: aprovechando el modelo AraBERT

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Clasificación de tweets tóxicos en árabe: aprovechando el modelo AraBERT

Autores: Koshiry, Amr Mohamed El; Eliwa, Entesar Hamed I.; Abd El-Hafeez, Tarek; Omar, Ahmed

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Clasificación de tweets tóxicos en árabe: aprovechando el modelo AraBERT

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Plataformas de redes sociales

Comunicación

Contenido tóxico

Textos en árabe

Conjunto de datos

Clasificación de tweets

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones

Las plataformas de redes sociales se han convertido en el principal medio de comunicación y compartición de información, facilitando intercambios interactivos entre usuarios. Desafortunadamente, estas plataformas también presencian la difusión de contenido inapropiado y tóxico, incluyendo discursos de odio e insultos. Aunque se han realizado esfuerzos significativos para clasificar contenido tóxico en el idioma inglés, no se ha prestado el mismo nivel de atención a los textos en árabe. Este estudio aborda esta brecha mediante la construcción de un conjunto de datos árabe estandarizado diseñado específicamente para la clasificación de tweets tóxicos. El conjunto de datos está anotado automáticamente utilizando la API de Perspectiva de Google y la experiencia de tres hablantes nativos de árabe y lingüistas. Para evaluar el rendimiento de diferentes modelos, realizamos una serie de experimentos utilizando siete modelos: memoria a largo plazo (LSTM), LSTM bidireccional, una red neuronal convolucional, una unidad recurrente con compuertas (GRU), GRU bidireccional, representaciones de codificador bidireccional multilingüe de transformers, y AraBERT. Además, empleamos técnicas de incrustación de palabras. Nuestros hallazgos experimentales demuestran que el modelo AraBERT ajustado supera el rendimiento de otros modelos, logrando una impresionante precisión de 0.9960. Notablemente, este valor de precisión supera en rendimiento enfoques similares reportados en literatura reciente. Este estudio representa un avance significativo en la clasificación de tweets tóxicos en árabe, arrojando luz sobre la importancia de abordar la toxicidad en las plataformas de redes sociales considerando diferentes idiomas y culturas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro