Detección de ciberacoso: modelos híbridos basados en técnicas de aprendizaje automático y procesamiento de lenguaje natural
Autores: Raj, Chahat; Agarwal, Ayush; Bharathy, Gnana; Narayan, Bhuva; Prasad, Mukesh
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Detección de ciberacoso: modelos híbridos basados en técnicas de aprendizaje automático y procesamiento de lenguaje natural
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Interacciones en redes sociales
Ciberacoso
Aprendizaje automático
Redes neuronales
Métodos de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
El aumento de las interacciones en la web y en las redes sociales ha resultado en la proliferación sin esfuerzo de lenguaje ofensivo y discursos de odio. Tal acoso en línea, insultos y ataques son comúnmente denominados ciberacoso. El volumen de contenido generado por usuarios ha hecho que sea desafiante identificar dicho contenido ilícito. El aprendizaje automático tiene amplias aplicaciones en la clasificación de texto, y los investigadores se están inclinando hacia el uso de redes neuronales profundas en la detección de ciberacoso debido a las varias ventajas que tienen sobre los algoritmos tradicionales de aprendizaje automático. Este documento propone un novedoso marco de red neuronal con optimización de parámetros y un estudio comparativo algorítmico de once métodos de clasificación: cuatro de aprendizaje automático tradicional y siete redes neuronales superficiales en dos conjuntos de datos del mundo real sobre ciberacoso. Además, este documento examina el efecto de la extracción de características y las técnicas de procesamiento de lenguaje natural basadas en incrustación de palabras en el rendimiento algorítmico. Observaciones clave de este estudio muestran que las redes neuronales bidireccionales y los modelos de atención proporcionan altos resultados de clasificación. Se observó que la Regresión Logística fue la mejor entre los clasificadores de aprendizaje automático tradicionales utilizados. La Frecuencia de Término-Inversa de Documento (TF-IDF) demuestra precisión consistentemente alta con técnicas de aprendizaje automático tradicionales. Los Vectores Globales (GloVe) funcionan mejor con modelos de redes neuronales. Bi-GRU y Bi-LSTM funcionaron mejor entre las redes neuronales utilizadas. Los experimentos extensos realizados en los dos conjuntos de datos establecen la importancia de este trabajo al comparar once métodos de clasificación y siete técnicas de extracción de características. Nuestras propuestas de redes neuronales superficiales superan los enfoques actuales de vanguardia para la detección de ciberacoso, con precisión y puntuaciones F1 de hasta ~95% y ~98%, respectivamente.
Descripción
El aumento de las interacciones en la web y en las redes sociales ha resultado en la proliferación sin esfuerzo de lenguaje ofensivo y discursos de odio. Tal acoso en línea, insultos y ataques son comúnmente denominados ciberacoso. El volumen de contenido generado por usuarios ha hecho que sea desafiante identificar dicho contenido ilícito. El aprendizaje automático tiene amplias aplicaciones en la clasificación de texto, y los investigadores se están inclinando hacia el uso de redes neuronales profundas en la detección de ciberacoso debido a las varias ventajas que tienen sobre los algoritmos tradicionales de aprendizaje automático. Este documento propone un novedoso marco de red neuronal con optimización de parámetros y un estudio comparativo algorítmico de once métodos de clasificación: cuatro de aprendizaje automático tradicional y siete redes neuronales superficiales en dos conjuntos de datos del mundo real sobre ciberacoso. Además, este documento examina el efecto de la extracción de características y las técnicas de procesamiento de lenguaje natural basadas en incrustación de palabras en el rendimiento algorítmico. Observaciones clave de este estudio muestran que las redes neuronales bidireccionales y los modelos de atención proporcionan altos resultados de clasificación. Se observó que la Regresión Logística fue la mejor entre los clasificadores de aprendizaje automático tradicionales utilizados. La Frecuencia de Término-Inversa de Documento (TF-IDF) demuestra precisión consistentemente alta con técnicas de aprendizaje automático tradicionales. Los Vectores Globales (GloVe) funcionan mejor con modelos de redes neuronales. Bi-GRU y Bi-LSTM funcionaron mejor entre las redes neuronales utilizadas. Los experimentos extensos realizados en los dos conjuntos de datos establecen la importancia de este trabajo al comparar once métodos de clasificación y siete técnicas de extracción de características. Nuestras propuestas de redes neuronales superficiales superan los enfoques actuales de vanguardia para la detección de ciberacoso, con precisión y puntuaciones F1 de hasta ~95% y ~98%, respectivamente.