Detectando agresión en el lenguaje: de datos diversos a clasificadores robustos
Autores: Wawer, Aleksander; Mykowiecka, Agnieszka; uk, Bartosz
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Detectando agresión en el lenguaje: de datos diversos a clasificadores robustos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección automática
Lenguaje agresivo
Polaco
Modelos de aprendizaje automático
Agresión lingüística
Entrenamiento.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
La detección automática de lenguaje agresivo es un desafío difícil. Actualmente, existen tres conjuntos de datos disponibles en polaco que permiten el entrenamiento de modelos de aprendizaje automático para reconocer diferentes tipos de agresión lingüística. En este documento abordamos los problemas de transferencia de conocimiento entre conjuntos de datos y el entrenamiento de un solo modelo que funcione mejor en todos los tipos de agresión. Debido al desequilibrio de datos, experimentamos con dos funciones de pérdida dedicadas al entrenamiento en datos desequilibrados: Entropía Cruzada Ponderada y pérdida Focal. Utilizando el modelo HerBERT en idioma polaco, presentamos los resultados de experimentos en el escenario de intercambio de datos y los resultados del modelo utilizando los datos combinados. Nuestros resultados muestran que (1) combinar diversos tipos de agresión lingüística durante el entrenamiento conduce a un clasificador de mejor rendimiento y (2) Entropía Cruzada Ponderada supera a otras funciones de pérdida probadas.
Descripción
La detección automática de lenguaje agresivo es un desafío difícil. Actualmente, existen tres conjuntos de datos disponibles en polaco que permiten el entrenamiento de modelos de aprendizaje automático para reconocer diferentes tipos de agresión lingüística. En este documento abordamos los problemas de transferencia de conocimiento entre conjuntos de datos y el entrenamiento de un solo modelo que funcione mejor en todos los tipos de agresión. Debido al desequilibrio de datos, experimentamos con dos funciones de pérdida dedicadas al entrenamiento en datos desequilibrados: Entropía Cruzada Ponderada y pérdida Focal. Utilizando el modelo HerBERT en idioma polaco, presentamos los resultados de experimentos en el escenario de intercambio de datos y los resultados del modelo utilizando los datos combinados. Nuestros resultados muestran que (1) combinar diversos tipos de agresión lingüística durante el entrenamiento conduce a un clasificador de mejor rendimiento y (2) Entropía Cruzada Ponderada supera a otras funciones de pérdida probadas.