Corpus SD-CVD: Hacia la detección robusta de ciber-violencia de grano fino a través de dialectos saudíes en plataformas en línea
Autores: Alsayed, Abrar; Elhag, Salma; Badri, Sahar
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Corpus SD-CVD: Hacia la detección robusta de ciber-violencia de grano fino a través de dialectos saudíes en plataformas en línea
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Introduce
Detección de Violencia Cibernética en Dialectos Saudíes
Corpus
Tuits en árabe
Subtipos de discurso de odio
Modelos de transformadores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta el corpus de Detección de Violencia Cibernética en Dialectos Saudíes (SD-CVD), un corpus de dialecto saudí a gran escala y equilibrado en clases para la detección detallada de violencia cibernética en plataformas en línea. El conjunto de datos contiene 88,687 tweets en árabe saudí anotados utilizando un esquema jerárquico de tres niveles que asigna cada tweet a una de 11 clases mutuamente excluyentes, cubriendo sentimientos benignos (positivo, neutral, negativo), ciberacoso y siete subtipos de discurso de odio (incitación a la violencia, género, nacional, clase social, tribal, religioso y discriminación regional). Para mitigar el desequilibrio de clases común en los conjuntos de datos de violencia cibernética en árabe, se aplicó aumento de datos para lograr una distribución de clases casi uniforme. La calidad de la anotación se garantizó a través de una revisión en múltiples etapas, lo que resultó en un excelente acuerdo entre anotadores (Fleiss" > 0.89). Evaluamos tres paradigmas de modelado: aprendizaje automático tradicional con características TF-IDF y n-gramas (SVM, regresión logística, bosque aleatorio), modelos de aprendizaje profundo entrenados en incrustaciones de oraciones fijas (LSTM, RNN, MLP, CNN) y modelos de transformadores ajustados (AraBERTv02-Twitter, CAMeLBERT-MSA). Los resultados experimentales muestran que los transformadores tienen el mejor rendimiento, con AraBERTv02-Twitter logrando la puntuación F1 ponderada más alta (0.882) seguida de CAMeLBERT-MSA (0.869). Entre las líneas base no transformadoras, SVM es la más competitiva (0.853), mientras que CNN tiene el peor rendimiento (0.561). En general, SD-CVD proporciona un estándar de alta calidad y líneas base sólidas para apoyar futuras investigaciones sobre la detección robusta e interpretable de violencia cibernética en árabe.
Descripción
Este documento presenta el corpus de Detección de Violencia Cibernética en Dialectos Saudíes (SD-CVD), un corpus de dialecto saudí a gran escala y equilibrado en clases para la detección detallada de violencia cibernética en plataformas en línea. El conjunto de datos contiene 88,687 tweets en árabe saudí anotados utilizando un esquema jerárquico de tres niveles que asigna cada tweet a una de 11 clases mutuamente excluyentes, cubriendo sentimientos benignos (positivo, neutral, negativo), ciberacoso y siete subtipos de discurso de odio (incitación a la violencia, género, nacional, clase social, tribal, religioso y discriminación regional). Para mitigar el desequilibrio de clases común en los conjuntos de datos de violencia cibernética en árabe, se aplicó aumento de datos para lograr una distribución de clases casi uniforme. La calidad de la anotación se garantizó a través de una revisión en múltiples etapas, lo que resultó en un excelente acuerdo entre anotadores (Fleiss" > 0.89). Evaluamos tres paradigmas de modelado: aprendizaje automático tradicional con características TF-IDF y n-gramas (SVM, regresión logística, bosque aleatorio), modelos de aprendizaje profundo entrenados en incrustaciones de oraciones fijas (LSTM, RNN, MLP, CNN) y modelos de transformadores ajustados (AraBERTv02-Twitter, CAMeLBERT-MSA). Los resultados experimentales muestran que los transformadores tienen el mejor rendimiento, con AraBERTv02-Twitter logrando la puntuación F1 ponderada más alta (0.882) seguida de CAMeLBERT-MSA (0.869). Entre las líneas base no transformadoras, SVM es la más competitiva (0.853), mientras que CNN tiene el peor rendimiento (0.561). En general, SD-CVD proporciona un estándar de alta calidad y líneas base sólidas para apoyar futuras investigaciones sobre la detección robusta e interpretable de violencia cibernética en árabe.