Un estudio de enfoques para la detección de texto tóxico multilingüe bajo una distribución de muestras desequilibrada

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un estudio de enfoques para la detección de texto tóxico multilingüe bajo una distribución de muestras desequilibrada

Autores: Song, Guizhe; Huang, Degen; Xiao, Zhifeng

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Un estudio de enfoques para la detección de texto tóxico multilingüe bajo una distribución de muestras desequilibrada

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Características multilingües

Datos anotados

Distribución de muestras desequilibrada

Análisis de comentarios tóxicos

Entorno multilingüe

Estrategia de fusión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Las características multilingües, la falta de datos anotados y la distribución de muestras desequilibrada son los tres principales desafíos para el análisis de comentarios tóxicos en un entorno multilingüe. Este documento propone un clasificador de texto tóxico multilingüe que adopta una nueva estrategia de fusión que combina diferentes funciones de pérdida y múltiples modelos de preentrenamiento. Específicamente, el pipeline de aprendizaje propuesto comienza con una serie de pasos de preprocesamiento, que incluyen traducción, segmentación de palabras, purificación, digitalización de texto y vectorización, para convertir los tokens de palabras en una forma vectorizada adecuada para las tareas posteriores. Se emplean dos modelos, la representación de codificador bidireccional multilingüe de transformadores (MBERT) y XLM-RoBERTa (XLM-R), para el preentrenamiento a través del modelado de lenguaje enmascarado (MLM) y el modelado de lenguaje de traducción (TLM), que incorporan información semántica y contextual en los modelos. Entrenamos seis modelos base y los fusionamos para obtener tres modelos de fusión utilizando las puntuaciones F1 como pesos. Los modelos se evalúan en el conjunto de datos de comentarios tóxicos multilingües de Jigsaw. Los resultados experimentales muestran que el mejor modelo de fusión supera a los dos modelos de última generación, MBERT y XLM-R, en la puntuación F1 en un 5.05% y un 0.76%, respectivamente, verificando la efectividad y robustez de la estrategia de fusión propuesta.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro