Detección de ciberacoso chino utilizando un modelo híbrido de XLNet y Deep Bi-LSTM
Autores: Chen, Shifeng; Wang, Jialin; He, Ketai
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Detección de ciberacoso chino utilizando un modelo híbrido de XLNet y Deep Bi-LSTM
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Internet
Teléfonos inteligentes
Usuarios de redes sociales
Ciberacoso
BERT
Detección de ciberacoso en China
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La popularización de internet y el uso generalizado de teléfonos inteligentes han llevado a un rápido crecimiento en el número de usuarios de redes sociales. Si bien la tecnología de la información ha brindado comodidad a las personas, también ha dado lugar al ciberacoso, que tiene un serio impacto negativo. La identidad de los usuarios en línea está oculta y, debido a la falta de supervisión y a las imperfecciones de las leyes y políticas relevantes, el ciberacoso ocurre de vez en cuando, causando un grave daño mental y trauma psicológico a las víctimas. El modelo de lenguaje preentrenado BERT (Representaciones de Codificadores Bidireccionales de Transformadores) ha logrado buenos resultados en el campo del procesamiento del lenguaje natural, que se puede utilizar para la detección de ciberacoso. En esta investigación, construimos una variedad de modelos de aprendizaje automático tradicionales, aprendizaje profundo y modelos de lenguaje preentrenados en chino como base, y proponemos un modelo híbrido basado en una variante de BERT: XLNet, y Bi-LSTM profundo para la detección de ciberacoso en chino. Además, se recopilan comentarios reales de ciberacoso para ampliar el conjunto de datos de lenguaje ofensivo en chino COLDATASET. El rendimiento del modelo propuesto supera a todos los modelos base en este conjunto de datos, mejorando un 4.29% en comparación con SVM, el método de mejor rendimiento en aprendizaje automático tradicional, un 1.49% en comparación con GRU, el método de mejor rendimiento en aprendizaje profundo, y un 1.13% en comparación con BERT.
Descripción
La popularización de internet y el uso generalizado de teléfonos inteligentes han llevado a un rápido crecimiento en el número de usuarios de redes sociales. Si bien la tecnología de la información ha brindado comodidad a las personas, también ha dado lugar al ciberacoso, que tiene un serio impacto negativo. La identidad de los usuarios en línea está oculta y, debido a la falta de supervisión y a las imperfecciones de las leyes y políticas relevantes, el ciberacoso ocurre de vez en cuando, causando un grave daño mental y trauma psicológico a las víctimas. El modelo de lenguaje preentrenado BERT (Representaciones de Codificadores Bidireccionales de Transformadores) ha logrado buenos resultados en el campo del procesamiento del lenguaje natural, que se puede utilizar para la detección de ciberacoso. En esta investigación, construimos una variedad de modelos de aprendizaje automático tradicionales, aprendizaje profundo y modelos de lenguaje preentrenados en chino como base, y proponemos un modelo híbrido basado en una variante de BERT: XLNet, y Bi-LSTM profundo para la detección de ciberacoso en chino. Además, se recopilan comentarios reales de ciberacoso para ampliar el conjunto de datos de lenguaje ofensivo en chino COLDATASET. El rendimiento del modelo propuesto supera a todos los modelos base en este conjunto de datos, mejorando un 4.29% en comparación con SVM, el método de mejor rendimiento en aprendizaje automático tradicional, un 1.49% en comparación con GRU, el método de mejor rendimiento en aprendizaje profundo, y un 1.13% en comparación con BERT.