logo móvil
Contáctanos

Corpus SD-CVD: Hacia la detección robusta de ciber-violencia de grano fino a través de dialectos saudíes en plataformas en línea

Autores: Alsayed, Abrar; Elhag, Salma; Badri, Sahar

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Corpus SD-CVD: Hacia la detección robusta de ciber-violencia de grano fino a través de dialectos saudíes en plataformas en línea


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Introduce
Detección de Violencia Cibernética en Dialectos Saudíes
Corpus
Tuits en árabe
Subtipos de discurso de odio
Modelos de transformadores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento presenta el corpus de Detección de Violencia Cibernética en Dialectos Saudíes (SD-CVD), un corpus de dialecto saudí a gran escala y equilibrado en clases para la detección detallada de violencia cibernética en plataformas en línea. El conjunto de datos contiene 88,687 tweets en árabe saudí anotados utilizando un esquema jerárquico de tres niveles que asigna cada tweet a una de 11 clases mutuamente excluyentes, cubriendo sentimientos benignos (positivo, neutral, negativo), ciberacoso y siete subtipos de discurso de odio (incitación a la violencia, género, nacional, clase social, tribal, religioso y discriminación regional). Para mitigar el desequilibrio de clases común en los conjuntos de datos de violencia cibernética en árabe, se aplicó aumento de datos para lograr una distribución de clases casi uniforme. La calidad de la anotación se garantizó a través de una revisión en múltiples etapas, lo que resultó en un excelente acuerdo entre anotadores (Fleiss" > 0.89). Evaluamos tres paradigmas de modelado: aprendizaje automático tradicional con características TF-IDF y n-gramas (SVM, regresión logística, bosque aleatorio), modelos de aprendizaje profundo entrenados en incrustaciones de oraciones fijas (LSTM, RNN, MLP, CNN) y modelos de transformadores ajustados (AraBERTv02-Twitter, CAMeLBERT-MSA). Los resultados experimentales muestran que los transformadores tienen el mejor rendimiento, con AraBERTv02-Twitter logrando la puntuación F1 ponderada más alta (0.882) seguida de CAMeLBERT-MSA (0.869). Entre las líneas base no transformadoras, SVM es la más competitiva (0.853), mientras que CNN tiene el peor rendimiento (0.561). En general, SD-CVD proporciona un estándar de alta calidad y líneas base sólidas para apoyar futuras investigaciones sobre la detección robusta e interpretable de violencia cibernética en árabe.

Otros recursos que podrían interesarte

Temas Virtualpro