Corpus SD-CVD: Hacia la detección robusta de ciber-violencia de grano fino a través de dialectos saudíes en plataformas en línea

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Corpus SD-CVD: Hacia la detección robusta de ciber-violencia de grano fino a través de dialectos saudíes en plataformas en línea

Autores: Alsayed, Abrar; Elhag, Salma; Badri, Sahar

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Corpus SD-CVD: Hacia la detección robusta de ciber-violencia de grano fino a través de dialectos saudíes en plataformas en línea

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Introduce

Detección de Violencia Cibernética en Dialectos Saudíes

Corpus

Tuits en árabe

Subtipos de discurso de odio

Modelos de transformadores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento presenta el corpus de Detección de Violencia Cibernética en Dialectos Saudíes (SD-CVD), un corpus de dialecto saudí a gran escala y equilibrado en clases para la detección detallada de violencia cibernética en plataformas en línea. El conjunto de datos contiene 88,687 tweets en árabe saudí anotados utilizando un esquema jerárquico de tres niveles que asigna cada tweet a una de 11 clases mutuamente excluyentes, cubriendo sentimientos benignos (positivo, neutral, negativo), ciberacoso y siete subtipos de discurso de odio (incitación a la violencia, género, nacional, clase social, tribal, religioso y discriminación regional). Para mitigar el desequilibrio de clases común en los conjuntos de datos de violencia cibernética en árabe, se aplicó aumento de datos para lograr una distribución de clases casi uniforme. La calidad de la anotación se garantizó a través de una revisión en múltiples etapas, lo que resultó en un excelente acuerdo entre anotadores (Fleiss" > 0.89). Evaluamos tres paradigmas de modelado: aprendizaje automático tradicional con características TF-IDF y n-gramas (SVM, regresión logística, bosque aleatorio), modelos de aprendizaje profundo entrenados en incrustaciones de oraciones fijas (LSTM, RNN, MLP, CNN) y modelos de transformadores ajustados (AraBERTv02-Twitter, CAMeLBERT-MSA). Los resultados experimentales muestran que los transformadores tienen el mejor rendimiento, con AraBERTv02-Twitter logrando la puntuación F1 ponderada más alta (0.882) seguida de CAMeLBERT-MSA (0.869). Entre las líneas base no transformadoras, SVM es la más competitiva (0.853), mientras que CNN tiene el peor rendimiento (0.561). En general, SD-CVD proporciona un estándar de alta calidad y líneas base sólidas para apoyar futuras investigaciones sobre la detección robusta e interpretable de violencia cibernética en árabe.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro