Detección de Discurso de Odio y Regulación de la Opinión Pública en Línea Usando el Algoritmo de Máquinas de Soporte Vectorial: Aplicación e Impacto en las Redes Sociales
Autores: Li, Siyuan; Li, Zhi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Detección de Discurso de Odio y Regulación de la Opinión Pública en Línea Usando el Algoritmo de Máquinas de Soporte Vectorial: Aplicación e Impacto en las Redes Sociales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Discurso de odio
Algoritmo SVM
Redes sociales
Recolección de datos
Incrustaciones de palabras
Análisis de sentimientos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Detectar el discurso de odio en las redes sociales es un desafío debido a su rareza, complejidad de alta dimensión y expresión implícita a través del sarcasmo o variaciones en la ortografía, lo que hace que los modelos lineales sean ineficaces. En este estudio, se utiliza el algoritmo SVM (Máquina de Vectores de Soporte) para mapear características de texto de un espacio de baja dimensión a uno de alta dimensión utilizando técnicas de funciones de núcleo para enfrentar desafíos complejos de clasificación no lineal. Al maximizar el intervalo de categorías para localizar el hiperplano óptimo y combinar técnicas nucleares para ajustar implícitamente la distribución de datos, se mejora significativamente la precisión de clasificación en la detección de discurso de odio. La recolección de datos aprovecha las API (Interfaz de Programación de Aplicaciones) de redes sociales y rastreadores personalizados con autenticación OAuth2.0 y filtrado de palabras clave, asegurando relevancia. Las expresiones regulares validan la integridad de los datos, seguidas de pasos de preprocesamiento como eliminación de ruido, eliminación de palabras vacías y corrección ortográfica. Se generan incrustaciones de palabras utilizando el modelo Skip-gram de Word2Vec, combinado con el ponderado TF-IDF (Frecuencia de Término-Frecuencia Inversa de Documento) para capturar la semántica contextual. Un marco de extracción de características de múltiples niveles integra el análisis de sentimientos a través de métodos basados en léxicos y BERT para un reconocimiento avanzado de sentimientos. Las evaluaciones experimentales en dos conjuntos de datos demuestran la efectividad del modelo SVM, logrando precisiones del 90.42% y 92.84%, tasas de recuperación del 88.06% y 90.79%, y tiempos de inferencia promedio de 3.71 ms y 2.96 ms. Estos resultados destacan la capacidad del modelo para detectar de manera precisa y eficiente el discurso de odio implícito, apoyando el monitoreo en tiempo real. Esta investigación contribuye a crear un entorno en línea más seguro al avanzar en las metodologías de detección de discurso de odio.
Descripción
Detectar el discurso de odio en las redes sociales es un desafío debido a su rareza, complejidad de alta dimensión y expresión implícita a través del sarcasmo o variaciones en la ortografía, lo que hace que los modelos lineales sean ineficaces. En este estudio, se utiliza el algoritmo SVM (Máquina de Vectores de Soporte) para mapear características de texto de un espacio de baja dimensión a uno de alta dimensión utilizando técnicas de funciones de núcleo para enfrentar desafíos complejos de clasificación no lineal. Al maximizar el intervalo de categorías para localizar el hiperplano óptimo y combinar técnicas nucleares para ajustar implícitamente la distribución de datos, se mejora significativamente la precisión de clasificación en la detección de discurso de odio. La recolección de datos aprovecha las API (Interfaz de Programación de Aplicaciones) de redes sociales y rastreadores personalizados con autenticación OAuth2.0 y filtrado de palabras clave, asegurando relevancia. Las expresiones regulares validan la integridad de los datos, seguidas de pasos de preprocesamiento como eliminación de ruido, eliminación de palabras vacías y corrección ortográfica. Se generan incrustaciones de palabras utilizando el modelo Skip-gram de Word2Vec, combinado con el ponderado TF-IDF (Frecuencia de Término-Frecuencia Inversa de Documento) para capturar la semántica contextual. Un marco de extracción de características de múltiples niveles integra el análisis de sentimientos a través de métodos basados en léxicos y BERT para un reconocimiento avanzado de sentimientos. Las evaluaciones experimentales en dos conjuntos de datos demuestran la efectividad del modelo SVM, logrando precisiones del 90.42% y 92.84%, tasas de recuperación del 88.06% y 90.79%, y tiempos de inferencia promedio de 3.71 ms y 2.96 ms. Estos resultados destacan la capacidad del modelo para detectar de manera precisa y eficiente el discurso de odio implícito, apoyando el monitoreo en tiempo real. Esta investigación contribuye a crear un entorno en línea más seguro al avanzar en las metodologías de detección de discurso de odio.