Un Estudio Comparativo de Técnicas de Aprendizaje Automático y Aprendizaje Profundo para la Detección de Noticias Falsas
Autores: Alghamdi, Jawaher; Lin, Yuqing; Luo, Suhuai
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un Estudio Comparativo de Técnicas de Aprendizaje Automático y Aprendizaje Profundo para la Detección de Noticias Falsas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Investigadores
Procesamiento de lenguaje natural
PLN
Noticias falsas
Aprendizaje automático
Aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Se han dedicado esfuerzos por parte de investigadores en el campo del procesamiento del lenguaje natural (NLP) para detectar y combatir noticias falsas utilizando una variedad de técnicas de aprendizaje automático (ML) y aprendizaje profundo (DL). En este artículo, se realiza una revisión de los estudios existentes para comprender y reducir la difusión de noticias falsas. Específicamente, llevamos a cabo un estudio de referencia utilizando una amplia gama de (1) algoritmos clásicos de ML como regresión logística (LR), máquinas de soporte vectorial (SVM), árboles de decisión (DT), Bayes ingenuo (NB), bosque aleatorio (RF), XGBoost (XGB) y un método de aprendizaje en conjunto de dichos algoritmos, (2) algoritmos avanzados de ML como redes neuronales convolucionales (CNN), memoria a largo plazo bidireccional (BiLSTM), unidades recurrentes bidireccionales (BiGRU), CNN-BiLSTM, CNN-BiGRU y un enfoque híbrido de dichas técnicas y (3) modelos de DL basados en transformadores como BERTbase y RoBERTabase. Los experimentos se llevan a cabo utilizando diferentes métodos de incrustación de palabras preentrenados en cuatro conjuntos de datos de noticias falsas del mundo real bien conocidos: LIAR, PolitiFact, GossipCop y COVID-19, para examinar el rendimiento de diferentes técnicas en varios conjuntos de datos. Además, se realiza una comparación entre métodos de incrustación independientes del contexto (por ejemplo, GloVe) y la efectividad de las representaciones contextualizadas de BERTbase en la detección de noticias falsas. En comparación con los resultados del estado del arte en los conjuntos de datos utilizados, logramos mejores resultados al confiar únicamente en el texto de las noticias. Esperamos que este estudio pueda proporcionar información útil para los investigadores que trabajan en la detección de noticias falsas.
Descripción
Se han dedicado esfuerzos por parte de investigadores en el campo del procesamiento del lenguaje natural (NLP) para detectar y combatir noticias falsas utilizando una variedad de técnicas de aprendizaje automático (ML) y aprendizaje profundo (DL). En este artículo, se realiza una revisión de los estudios existentes para comprender y reducir la difusión de noticias falsas. Específicamente, llevamos a cabo un estudio de referencia utilizando una amplia gama de (1) algoritmos clásicos de ML como regresión logística (LR), máquinas de soporte vectorial (SVM), árboles de decisión (DT), Bayes ingenuo (NB), bosque aleatorio (RF), XGBoost (XGB) y un método de aprendizaje en conjunto de dichos algoritmos, (2) algoritmos avanzados de ML como redes neuronales convolucionales (CNN), memoria a largo plazo bidireccional (BiLSTM), unidades recurrentes bidireccionales (BiGRU), CNN-BiLSTM, CNN-BiGRU y un enfoque híbrido de dichas técnicas y (3) modelos de DL basados en transformadores como BERTbase y RoBERTabase. Los experimentos se llevan a cabo utilizando diferentes métodos de incrustación de palabras preentrenados en cuatro conjuntos de datos de noticias falsas del mundo real bien conocidos: LIAR, PolitiFact, GossipCop y COVID-19, para examinar el rendimiento de diferentes técnicas en varios conjuntos de datos. Además, se realiza una comparación entre métodos de incrustación independientes del contexto (por ejemplo, GloVe) y la efectividad de las representaciones contextualizadas de BERTbase en la detección de noticias falsas. En comparación con los resultados del estado del arte en los conjuntos de datos utilizados, logramos mejores resultados al confiar únicamente en el texto de las noticias. Esperamos que este estudio pueda proporcionar información útil para los investigadores que trabajan en la detección de noticias falsas.