logo móvil
Contáctanos

Clasificación de tweets de spam en árabe: un enfoque integral de aprendizaje automático

Autores: Hantom, Wafa Hussain; Rahman, Atta

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Clasificación de tweets de spam en árabe: un enfoque integral de aprendizaje automático


Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Problemas comunes
Tweets de spam
Plataformas de redes sociales
Detección de spam
Spam de tweets en árabe
Aprendizaje automático

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
Hoy en día, uno de los problemas más comunes que enfrentan los usuarios de Twitter (también conocido como X), incluidos individuos y organizaciones, es lidiar con tweets de spam. El problema continúa proliferando debido a la creciente popularidad y número de usuarios de plataformas de redes sociales. Debido a este interés abrumador, los spammers pueden publicar textos, imágenes y videos que contienen enlaces sospechosos que pueden ser utilizados para propagar virus, rumores, marketing negativo y sarcasmo, y potencialmente hackear la información del usuario. La detección de spam es una de las áreas de investigación más candentes en procesamiento del lenguaje natural (NLP) y ciberseguridad. Se han realizado varios estudios al respecto, pero se centran principalmente en el idioma inglés. Sin embargo, la detección de spam en tweets en árabe aún tiene un largo camino por recorrer, especialmente enfatizando los diversos dialectos distintos al árabe estándar moderno (MSA), ya que, en los tweets, rara vez se utiliza el dialecto estándar. La situación demanda un enfoque automatizado, robusto y eficiente para la detección de spam en tweets en árabe. Para abordar el problema, en esta investigación se han investigado varios modelos de aprendizaje automático y aprendizaje profundo para detectar tweets de spam en árabe, incluidos Random Forest (RF), Support Vector Machine (SVM), Naive Bayes (NB) y Long-Short Term Memory (LSTM). En este sentido, nos hemos centrado en las palabras y en el significado del texto del tweet. Tras varios experimentos, los modelos propuestos han dado resultados prometedores en contraste con los enfoques anteriores para los mismos y diversos conjuntos de datos. Los resultados mostraron que el clasificador RF logró un 96.78% y el clasificador LSTM alcanzó un 94.56%, seguido por el clasificador SVM que logró una precisión del 82%. Además, en términos de puntuación F1, hay una mejora del 21.38%, 19.16% y 5.2% utilizando los clasificadores RF, LSTM y SVM en comparación con los esquemas con el mismo conjunto de datos.

Otros recursos que podrían interesarte

Temas Virtualpro