Un estudio empírico de modelos de aprendizaje automático y aprendizaje profundo para la detección automatizada de noticias falsas
Autores: Tian, Yexin; Xu, Shuo; Cao, Yuchen; Wang, Zhongyan; Wei, Zijing
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un estudio empírico de modelos de aprendizaje automático y aprendizaje profundo para la detección automatizada de noticias falsas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Noticias falsas
Procesamiento del lenguaje natural
PLN
Algoritmos de aprendizaje automático
Arquitecturas de aprendizaje profundo
Benchmarks empíricos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
Detectar noticias falsas es un desafío crítico en el procesamiento del lenguaje natural (NLP), que exige soluciones que equilibren la precisión, la interpretabilidad y la eficiencia computacional. A pesar de los avances en NLP, los benchmarks empíricos sistemáticos que comparan directamente tanto modelos clásicos como profundos, a través de diferentes niveles de riqueza de entrada y con atención cuidadosa a la interpretabilidad y a los compromisos computacionales, siguen siendo poco explorados. En este estudio, evaluamos sistemáticamente los fundamentos matemáticos y el rendimiento empírico de cinco modelos representativos para la clasificación automatizada de noticias falsas: tres algoritmos clásicos de aprendizaje automático (Regresión Logística, Bosque Aleatorio y Máquina de Refuerzo de Gradiente Ligero) y dos arquitecturas de aprendizaje profundo de vanguardia (ALBERT y GRUs). Aprovechando el conjunto de datos a gran escala WELFake, realizamos experimentos rigurosos tanto en escenarios de entrada solo con titulares como con titulares más contenido, proporcionando una evaluación integral de la capacidad de cada modelo para capturar pistas lingüísticas, contextuales y semánticas. Analizamos el marco de optimización de cada modelo, los límites de decisión y los mecanismos de importancia de características, destacando los compromisos empíricos entre la capacidad representativa, la generalización y la interpretabilidad. Nuestros resultados muestran que los modelos basados en transformadores, especialmente ALBERT, logran un rendimiento de vanguardia (macro F1 de hasta 0,99) con un contexto rico, mientras que los conjuntos clásicos siguen siendo viables para entornos restringidos. Estos hallazgos informan directamente sobre la detección práctica de noticias falsas.
Descripción
Detectar noticias falsas es un desafío crítico en el procesamiento del lenguaje natural (NLP), que exige soluciones que equilibren la precisión, la interpretabilidad y la eficiencia computacional. A pesar de los avances en NLP, los benchmarks empíricos sistemáticos que comparan directamente tanto modelos clásicos como profundos, a través de diferentes niveles de riqueza de entrada y con atención cuidadosa a la interpretabilidad y a los compromisos computacionales, siguen siendo poco explorados. En este estudio, evaluamos sistemáticamente los fundamentos matemáticos y el rendimiento empírico de cinco modelos representativos para la clasificación automatizada de noticias falsas: tres algoritmos clásicos de aprendizaje automático (Regresión Logística, Bosque Aleatorio y Máquina de Refuerzo de Gradiente Ligero) y dos arquitecturas de aprendizaje profundo de vanguardia (ALBERT y GRUs). Aprovechando el conjunto de datos a gran escala WELFake, realizamos experimentos rigurosos tanto en escenarios de entrada solo con titulares como con titulares más contenido, proporcionando una evaluación integral de la capacidad de cada modelo para capturar pistas lingüísticas, contextuales y semánticas. Analizamos el marco de optimización de cada modelo, los límites de decisión y los mecanismos de importancia de características, destacando los compromisos empíricos entre la capacidad representativa, la generalización y la interpretabilidad. Nuestros resultados muestran que los modelos basados en transformadores, especialmente ALBERT, logran un rendimiento de vanguardia (macro F1 de hasta 0,99) con un contexto rico, mientras que los conjuntos clásicos siguen siendo viables para entornos restringidos. Estos hallazgos informan directamente sobre la detección práctica de noticias falsas.