Un enfoque optimizado de aprendizaje en conjunto basado en votación ponderada para la clasificación de noticias falsas
Autores: Toor, Muhammad Shahzaib; Shahbaz, Hooria; Yasin, Muddasar; Ali, Armughan; Fitriyani, Norma Latif; Kim, Changgyun; Syafrudin, Muhammad
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un enfoque optimizado de aprendizaje en conjunto basado en votación ponderada para la clasificación de noticias falsas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aparición
Plataformas de intercambio de contenido
Redes sociales
Noticias falsas
Desinformación
Aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
La emergencia de diversas plataformas de intercambio de contenido y redes sociales ha hecho que la difusión de noticias falsas y desinformación sea cada vez más generalizada. Esta desinformación puede causar confusión y miedo extensos en toda la población. Enfrentar este dilema requiere un enfoque efectivo y preciso para identificar la desinformación, un proceso intrínsecamente complicado. Esta investigación presenta un método automatizado y eficiente para detectar información falsa. Evaluamos la eficacia de varios modelos de aprendizaje automático y aprendizaje profundo en dos conjuntos de datos de noticias falsas diferentes en tamaño a través de una validación cruzada con retención. Además, evaluamos la eficacia de tres métodos distintos de vectorización de palabras. Además, empleamos un modelo de conjunto de votación ponderado mejorado que mejora la detección de noticias falsas al integrar regresión logística (LR), máquina de vectores de soporte (SVM), unidad recurrente cerrada (GRU) y redes de memoria a corto y largo plazo (LSTM). Este método muestra un rendimiento mejorado en comparación con técnicas anteriores: 98.76% para el conjunto de datos de PolitiFact y 97.67% para el conjunto de datos de BuzzFeed. Además, el modelo supera a los componentes individuales, lo que resulta en una precisión, recall y puntuaciones F1 superiores. Las mejoras en el rendimiento se deben a la capacidad del método de conjunto de utilizar las ventajas de cada modelo base, proporcionando así una generalización robusta en todos los conjuntos de datos. Se empleó la validación cruzada para mejorar la confiabilidad del modelo, validando su capacidad para generalizar de manera efectiva a datos novedosos.
Descripción
La emergencia de diversas plataformas de intercambio de contenido y redes sociales ha hecho que la difusión de noticias falsas y desinformación sea cada vez más generalizada. Esta desinformación puede causar confusión y miedo extensos en toda la población. Enfrentar este dilema requiere un enfoque efectivo y preciso para identificar la desinformación, un proceso intrínsecamente complicado. Esta investigación presenta un método automatizado y eficiente para detectar información falsa. Evaluamos la eficacia de varios modelos de aprendizaje automático y aprendizaje profundo en dos conjuntos de datos de noticias falsas diferentes en tamaño a través de una validación cruzada con retención. Además, evaluamos la eficacia de tres métodos distintos de vectorización de palabras. Además, empleamos un modelo de conjunto de votación ponderado mejorado que mejora la detección de noticias falsas al integrar regresión logística (LR), máquina de vectores de soporte (SVM), unidad recurrente cerrada (GRU) y redes de memoria a corto y largo plazo (LSTM). Este método muestra un rendimiento mejorado en comparación con técnicas anteriores: 98.76% para el conjunto de datos de PolitiFact y 97.67% para el conjunto de datos de BuzzFeed. Además, el modelo supera a los componentes individuales, lo que resulta en una precisión, recall y puntuaciones F1 superiores. Las mejoras en el rendimiento se deben a la capacidad del método de conjunto de utilizar las ventajas de cada modelo base, proporcionando así una generalización robusta en todos los conjuntos de datos. Se empleó la validación cruzada para mejorar la confiabilidad del modelo, validando su capacidad para generalizar de manera efectiva a datos novedosos.