Detección de discurso de odio, racismo y misoginia en redes sociales digitales: estudio de caso colombiano
Autores: Moreno-Sandoval, Luis Gabriel; Pomares-Quimbaya, Alexandra; Barbosa-Sierra, Sergio Andres; Pantoja-Rojas, Liliana Maria
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Detección de discurso de odio, racismo y misoginia en redes sociales digitales: estudio de caso colombiano
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Popularidad
Plataformas de redes sociales
Lenguaje ofensivo
Discurso de odio
Racismo
Misoginia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
La creciente popularidad de las plataformas de redes sociales en todo el mundo ha aumentado sustancialmente la presencia de lenguaje ofensivo en estas plataformas. Hasta la fecha, la mayoría de los sistemas desarrollados para mitigar este desafío se centran principalmente en contenido en inglés. Sin embargo, este problema es una preocupación global y, por lo tanto, otras lenguas, como el español, están involucradas. Este artículo aborda la tarea de identificar discursos de odio, racismo y misoginia en español dentro del contexto colombiano en las redes sociales, e introduce un conjunto de datos de referencia específicamente desarrollado para este propósito. De hecho, el experimento compara el rendimiento de modelos TLM de métodos de Deep Learning, como BERT, Roberta, XLM y BETO ajustados al dominio del argot colombiano, luego compara el mejor modelo TLM contra un GPT, teniendo un impacto significativo en lograr predicciones más precisas en esta tarea. Finalmente, este estudio proporciona una comprensión detallada de los diferentes componentes utilizados en el sistema, incluida la arquitectura de los modelos y la selección de funciones. Los mejores resultados muestran que el modelo BERT logra una precisión del 83.6% para la detección de discursos de odio, mientras que el modelo GPT logra una precisión del 90.8% para el discurso racista y del 90.4% para la detección de misoginia.
Descripción
La creciente popularidad de las plataformas de redes sociales en todo el mundo ha aumentado sustancialmente la presencia de lenguaje ofensivo en estas plataformas. Hasta la fecha, la mayoría de los sistemas desarrollados para mitigar este desafío se centran principalmente en contenido en inglés. Sin embargo, este problema es una preocupación global y, por lo tanto, otras lenguas, como el español, están involucradas. Este artículo aborda la tarea de identificar discursos de odio, racismo y misoginia en español dentro del contexto colombiano en las redes sociales, e introduce un conjunto de datos de referencia específicamente desarrollado para este propósito. De hecho, el experimento compara el rendimiento de modelos TLM de métodos de Deep Learning, como BERT, Roberta, XLM y BETO ajustados al dominio del argot colombiano, luego compara el mejor modelo TLM contra un GPT, teniendo un impacto significativo en lograr predicciones más precisas en esta tarea. Finalmente, este estudio proporciona una comprensión detallada de los diferentes componentes utilizados en el sistema, incluida la arquitectura de los modelos y la selección de funciones. Los mejores resultados muestran que el modelo BERT logra una precisión del 83.6% para la detección de discursos de odio, mientras que el modelo GPT logra una precisión del 90.8% para el discurso racista y del 90.4% para la detección de misoginia.