Clasificación de tweets de spam en árabe: un enfoque integral de aprendizaje automático
Autores: Hantom, Wafa Hussain; Rahman, Atta
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Clasificación de tweets de spam en árabe: un enfoque integral de aprendizaje automático
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Problemas comunes
Tweets de spam
Plataformas de redes sociales
Detección de spam
Spam de tweets en árabe
Aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Hoy en día, uno de los problemas más comunes que enfrentan los usuarios de Twitter (también conocido como X), incluidos individuos y organizaciones, es lidiar con tweets de spam. El problema continúa proliferando debido a la creciente popularidad y número de usuarios de plataformas de redes sociales. Debido a este interés abrumador, los spammers pueden publicar textos, imágenes y videos que contienen enlaces sospechosos que pueden ser utilizados para propagar virus, rumores, marketing negativo y sarcasmo, y potencialmente hackear la información del usuario. La detección de spam es una de las áreas de investigación más candentes en procesamiento del lenguaje natural (NLP) y ciberseguridad. Se han realizado varios estudios al respecto, pero se centran principalmente en el idioma inglés. Sin embargo, la detección de spam en tweets en árabe aún tiene un largo camino por recorrer, especialmente enfatizando los diversos dialectos distintos al árabe estándar moderno (MSA), ya que, en los tweets, rara vez se utiliza el dialecto estándar. La situación demanda un enfoque automatizado, robusto y eficiente para la detección de spam en tweets en árabe. Para abordar el problema, en esta investigación se han investigado varios modelos de aprendizaje automático y aprendizaje profundo para detectar tweets de spam en árabe, incluidos Random Forest (RF), Support Vector Machine (SVM), Naive Bayes (NB) y Long-Short Term Memory (LSTM). En este sentido, nos hemos centrado en las palabras y en el significado del texto del tweet. Tras varios experimentos, los modelos propuestos han dado resultados prometedores en contraste con los enfoques anteriores para los mismos y diversos conjuntos de datos. Los resultados mostraron que el clasificador RF logró un 96.78% y el clasificador LSTM alcanzó un 94.56%, seguido por el clasificador SVM que logró una precisión del 82%. Además, en términos de puntuación F1, hay una mejora del 21.38%, 19.16% y 5.2% utilizando los clasificadores RF, LSTM y SVM en comparación con los esquemas con el mismo conjunto de datos.
Descripción
Hoy en día, uno de los problemas más comunes que enfrentan los usuarios de Twitter (también conocido como X), incluidos individuos y organizaciones, es lidiar con tweets de spam. El problema continúa proliferando debido a la creciente popularidad y número de usuarios de plataformas de redes sociales. Debido a este interés abrumador, los spammers pueden publicar textos, imágenes y videos que contienen enlaces sospechosos que pueden ser utilizados para propagar virus, rumores, marketing negativo y sarcasmo, y potencialmente hackear la información del usuario. La detección de spam es una de las áreas de investigación más candentes en procesamiento del lenguaje natural (NLP) y ciberseguridad. Se han realizado varios estudios al respecto, pero se centran principalmente en el idioma inglés. Sin embargo, la detección de spam en tweets en árabe aún tiene un largo camino por recorrer, especialmente enfatizando los diversos dialectos distintos al árabe estándar moderno (MSA), ya que, en los tweets, rara vez se utiliza el dialecto estándar. La situación demanda un enfoque automatizado, robusto y eficiente para la detección de spam en tweets en árabe. Para abordar el problema, en esta investigación se han investigado varios modelos de aprendizaje automático y aprendizaje profundo para detectar tweets de spam en árabe, incluidos Random Forest (RF), Support Vector Machine (SVM), Naive Bayes (NB) y Long-Short Term Memory (LSTM). En este sentido, nos hemos centrado en las palabras y en el significado del texto del tweet. Tras varios experimentos, los modelos propuestos han dado resultados prometedores en contraste con los enfoques anteriores para los mismos y diversos conjuntos de datos. Los resultados mostraron que el clasificador RF logró un 96.78% y el clasificador LSTM alcanzó un 94.56%, seguido por el clasificador SVM que logró una precisión del 82%. Además, en términos de puntuación F1, hay una mejora del 21.38%, 19.16% y 5.2% utilizando los clasificadores RF, LSTM y SVM en comparación con los esquemas con el mismo conjunto de datos.