Detección de lenguaje ofensivo en fusión multi-semántica basada en aumento de datos
Autores: Liu, Junjie; Yang, Yong; Fan, Xiaochao; Ren, Ge; Yang, Liang; Ning, Qian
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Detección de lenguaje ofensivo en fusión multi-semántica basada en aumento de datos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Identificación
Lenguaje ofensivo
Redes sociales
Aumento de datos
Modelo de fusión semántica
Ciberacoso
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
La identificación rápida del lenguaje ofensivo en las redes sociales es de gran importancia para prevenir la propagación viral y reducir la difusión de información maliciosa, como el ciberacoso y contenido relacionado con el autolesionismo. En la investigación existente, los conjuntos de datos públicos de lenguaje ofensivo son pequeños; la calidad de las etiquetas es desigual; y el rendimiento de los modelos preentrenados no es satisfactorio. Para superar estos problemas, propusimos un modelo de fusión multi-semántica basado en aumento de datos (MSF). El aumento de datos se realizó mediante traducción inversa para reducir el impacto de conjuntos de datos demasiado pequeños en el rendimiento. Al mismo tiempo, utilizamos un mecanismo de fusión novedoso que combina características semánticas a nivel de palabras y características de caracteres de n-gramos. Los resultados experimentales en los dos conjuntos de datos mostraron que el modelo propuesto en este estudio puede extraer de manera efectiva la información semántica del lenguaje ofensivo y lograr un rendimiento de vanguardia en ambos conjuntos de datos.
Descripción
La identificación rápida del lenguaje ofensivo en las redes sociales es de gran importancia para prevenir la propagación viral y reducir la difusión de información maliciosa, como el ciberacoso y contenido relacionado con el autolesionismo. En la investigación existente, los conjuntos de datos públicos de lenguaje ofensivo son pequeños; la calidad de las etiquetas es desigual; y el rendimiento de los modelos preentrenados no es satisfactorio. Para superar estos problemas, propusimos un modelo de fusión multi-semántica basado en aumento de datos (MSF). El aumento de datos se realizó mediante traducción inversa para reducir el impacto de conjuntos de datos demasiado pequeños en el rendimiento. Al mismo tiempo, utilizamos un mecanismo de fusión novedoso que combina características semánticas a nivel de palabras y características de caracteres de n-gramos. Los resultados experimentales en los dos conjuntos de datos mostraron que el modelo propuesto en este estudio puede extraer de manera efectiva la información semántica del lenguaje ofensivo y lograr un rendimiento de vanguardia en ambos conjuntos de datos.