Detectando sexismo en línea: integrando análisis de sentimientos con modelos de lenguaje contextual
Autores: Belbachir, Faiza; Roustan, Thomas; Soukane, Assia
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Detectando sexismo en línea: integrando análisis de sentimientos con modelos de lenguaje contextual
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Plataformas de redes sociales
Discurso de odio
Sexismo
Modelos de lenguaje
Transformadores
Modelo LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
En la era digital, las plataformas de redes sociales han experimentado un aumento sustancial en el volumen de comentarios en línea. Aunque estas plataformas brindan a los usuarios un espacio para expresar sus opiniones, también sirven como terreno fértil para la proliferación de discursos de odio. Los comentarios de odio pueden clasificarse en varios tipos, incluyendo discriminación, violencia, racismo y sexismo, todos los cuales pueden impactar negativamente en la salud mental. Entre estos, el sexismo plantea un desafío significativo debido a sus diversas formas y la dificultad para definirlo, lo que hace que su detección sea compleja. No obstante, detectar y prevenir el sexismo en las redes sociales sigue siendo un problema crítico. Estudios recientes han utilizado modelos de lenguaje como transformers, conocidos por su capacidad para capturar los matices semánticos de los datos textuales. En este estudio, exploramos diferentes modelos de transformers, incluyendo múltiples versiones de RoBERTa (A Robustly Optimized BERT Pretraining Approach), para detectar sexismo. Hipotetizamos que combinar un modelo de lenguaje centrado en el sentimiento con modelos especializados en la detección de sexismo puede mejorar el rendimiento general. Para probar esta hipótesis, desarrollamos dos enfoques. El primero implicó el uso de transformers clásicos entrenados en nuestro conjunto de datos, mientras que el segundo combinó incrustaciones generadas por transformers con un modelo de Long Short-Term Memory (LSTM) para la clasificación. Las salidas probabilísticas de cada enfoque se agregaron a través de varias estrategias de votación para mejorar la precisión de detección. El enfoque LSTM con incrustaciones mejoró el puntaje F1 en un 0,2% en comparación con el enfoque de transformer clásico. Además, la combinación de ambos enfoques confirma nuestra hipótesis, logrando una mejora del 1,6% en el puntaje F1 en cada caso. Determinamos que un puntaje F1 superior a 0,84 mide efectivamente el sexismo. Además, construimos nuestro propio conjunto de datos para entrenar y evaluar los modelos.
Descripción
En la era digital, las plataformas de redes sociales han experimentado un aumento sustancial en el volumen de comentarios en línea. Aunque estas plataformas brindan a los usuarios un espacio para expresar sus opiniones, también sirven como terreno fértil para la proliferación de discursos de odio. Los comentarios de odio pueden clasificarse en varios tipos, incluyendo discriminación, violencia, racismo y sexismo, todos los cuales pueden impactar negativamente en la salud mental. Entre estos, el sexismo plantea un desafío significativo debido a sus diversas formas y la dificultad para definirlo, lo que hace que su detección sea compleja. No obstante, detectar y prevenir el sexismo en las redes sociales sigue siendo un problema crítico. Estudios recientes han utilizado modelos de lenguaje como transformers, conocidos por su capacidad para capturar los matices semánticos de los datos textuales. En este estudio, exploramos diferentes modelos de transformers, incluyendo múltiples versiones de RoBERTa (A Robustly Optimized BERT Pretraining Approach), para detectar sexismo. Hipotetizamos que combinar un modelo de lenguaje centrado en el sentimiento con modelos especializados en la detección de sexismo puede mejorar el rendimiento general. Para probar esta hipótesis, desarrollamos dos enfoques. El primero implicó el uso de transformers clásicos entrenados en nuestro conjunto de datos, mientras que el segundo combinó incrustaciones generadas por transformers con un modelo de Long Short-Term Memory (LSTM) para la clasificación. Las salidas probabilísticas de cada enfoque se agregaron a través de varias estrategias de votación para mejorar la precisión de detección. El enfoque LSTM con incrustaciones mejoró el puntaje F1 en un 0,2% en comparación con el enfoque de transformer clásico. Además, la combinación de ambos enfoques confirma nuestra hipótesis, logrando una mejora del 1,6% en el puntaje F1 en cada caso. Determinamos que un puntaje F1 superior a 0,84 mide efectivamente el sexismo. Además, construimos nuestro propio conjunto de datos para entrenar y evaluar los modelos.