Un estudio de enfoques para la detección de texto tóxico multilingüe bajo una distribución de muestras desequilibrada
Autores: Song, Guizhe; Huang, Degen; Xiao, Zhifeng
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un estudio de enfoques para la detección de texto tóxico multilingüe bajo una distribución de muestras desequilibrada
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Características multilingües
Datos anotados
Distribución de muestras desequilibrada
Análisis de comentarios tóxicos
Entorno multilingüe
Estrategia de fusión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las características multilingües, la falta de datos anotados y la distribución de muestras desequilibrada son los tres principales desafíos para el análisis de comentarios tóxicos en un entorno multilingüe. Este documento propone un clasificador de texto tóxico multilingüe que adopta una nueva estrategia de fusión que combina diferentes funciones de pérdida y múltiples modelos de preentrenamiento. Específicamente, el pipeline de aprendizaje propuesto comienza con una serie de pasos de preprocesamiento, que incluyen traducción, segmentación de palabras, purificación, digitalización de texto y vectorización, para convertir los tokens de palabras en una forma vectorizada adecuada para las tareas posteriores. Se emplean dos modelos, la representación de codificador bidireccional multilingüe de transformadores (MBERT) y XLM-RoBERTa (XLM-R), para el preentrenamiento a través del modelado de lenguaje enmascarado (MLM) y el modelado de lenguaje de traducción (TLM), que incorporan información semántica y contextual en los modelos. Entrenamos seis modelos base y los fusionamos para obtener tres modelos de fusión utilizando las puntuaciones F1 como pesos. Los modelos se evalúan en el conjunto de datos de comentarios tóxicos multilingües de Jigsaw. Los resultados experimentales muestran que el mejor modelo de fusión supera a los dos modelos de última generación, MBERT y XLM-R, en la puntuación F1 en un 5.05% y un 0.76%, respectivamente, verificando la efectividad y robustez de la estrategia de fusión propuesta.
Descripción
Las características multilingües, la falta de datos anotados y la distribución de muestras desequilibrada son los tres principales desafíos para el análisis de comentarios tóxicos en un entorno multilingüe. Este documento propone un clasificador de texto tóxico multilingüe que adopta una nueva estrategia de fusión que combina diferentes funciones de pérdida y múltiples modelos de preentrenamiento. Específicamente, el pipeline de aprendizaje propuesto comienza con una serie de pasos de preprocesamiento, que incluyen traducción, segmentación de palabras, purificación, digitalización de texto y vectorización, para convertir los tokens de palabras en una forma vectorizada adecuada para las tareas posteriores. Se emplean dos modelos, la representación de codificador bidireccional multilingüe de transformadores (MBERT) y XLM-RoBERTa (XLM-R), para el preentrenamiento a través del modelado de lenguaje enmascarado (MLM) y el modelado de lenguaje de traducción (TLM), que incorporan información semántica y contextual en los modelos. Entrenamos seis modelos base y los fusionamos para obtener tres modelos de fusión utilizando las puntuaciones F1 como pesos. Los modelos se evalúan en el conjunto de datos de comentarios tóxicos multilingües de Jigsaw. Los resultados experimentales muestran que el mejor modelo de fusión supera a los dos modelos de última generación, MBERT y XLM-R, en la puntuación F1 en un 5.05% y un 0.76%, respectivamente, verificando la efectividad y robustez de la estrategia de fusión propuesta.