logo móvil
Contáctanos

Un estudio de enfoques para la detección de texto tóxico multilingüe bajo una distribución de muestras desequilibrada

Autores: Song, Guizhe; Huang, Degen; Xiao, Zhifeng

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Un estudio de enfoques para la detección de texto tóxico multilingüe bajo una distribución de muestras desequilibrada


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Características multilingües
Datos anotados
Distribución de muestras desequilibrada
Análisis de comentarios tóxicos
Entorno multilingüe
Estrategia de fusión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las características multilingües, la falta de datos anotados y la distribución de muestras desequilibrada son los tres principales desafíos para el análisis de comentarios tóxicos en un entorno multilingüe. Este documento propone un clasificador de texto tóxico multilingüe que adopta una nueva estrategia de fusión que combina diferentes funciones de pérdida y múltiples modelos de preentrenamiento. Específicamente, el pipeline de aprendizaje propuesto comienza con una serie de pasos de preprocesamiento, que incluyen traducción, segmentación de palabras, purificación, digitalización de texto y vectorización, para convertir los tokens de palabras en una forma vectorizada adecuada para las tareas posteriores. Se emplean dos modelos, la representación de codificador bidireccional multilingüe de transformadores (MBERT) y XLM-RoBERTa (XLM-R), para el preentrenamiento a través del modelado de lenguaje enmascarado (MLM) y el modelado de lenguaje de traducción (TLM), que incorporan información semántica y contextual en los modelos. Entrenamos seis modelos base y los fusionamos para obtener tres modelos de fusión utilizando las puntuaciones F1 como pesos. Los modelos se evalúan en el conjunto de datos de comentarios tóxicos multilingües de Jigsaw. Los resultados experimentales muestran que el mejor modelo de fusión supera a los dos modelos de última generación, MBERT y XLM-R, en la puntuación F1 en un 5.05% y un 0.76%, respectivamente, verificando la efectividad y robustez de la estrategia de fusión propuesta.

Otros recursos que podrían interesarte

Temas Virtualpro