Empoderando la detección de propaganda en idiomas con recursos limitados: un marco basado en transformadores para clasificar artículos de noticias en hindi
Autores: Chaudhari, Deptii; Pawar, Ambika Vishal
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Empoderando la detección de propaganda en idiomas con recursos limitados: un marco basado en transformadores para clasificar artículos de noticias en hindi
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Desinformación
Noticias falsas
Técnicas de propaganda
Medios digitales
Medios de comunicación en hindi
Aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La desinformación, las noticias falsas y diversas técnicas de propaganda se utilizan cada vez más en los medios digitales. Se vuelve desafiante descubrir la propaganda ya que trabaja con el objetivo sistemático de influir en otras personas para alcanzar fines determinados. Aunque se ha informado ampliamente sobre la identificación y clasificación de la propaganda en idiomas ricos en recursos como el inglés, se ha hecho mucho menos esfuerzo en idiomas carentes de recursos como el hindi. La propagación de la propaganda en los medios de comunicación en hindi ha inducido nuestro intento de idear un enfoque para la categorización de la propaganda de artículos de noticias en hindi. La falta de herramientas lingüísticas necesarias hace que la clasificación de propaganda en hindi sea más desafiante. Este estudio propone el uso efectivo de enfoques basados en aprendizaje profundo y transformadores para la clasificación computacional de propaganda en hindi. Para abordar la falta de incrustaciones de palabras preentrenadas en hindi, se crearon incrustaciones de palabras en hindi Word2vec utilizando el corpus H-Prop-News para la extracción de características. Posteriormente, se experimentó con tres modelos de aprendizaje profundo, es decir, CNN (red neuronal convolucional), LSTM (memoria a corto y largo plazo), Bi-LSTM (memoria a corto y largo plazo bidireccional); y cuatro modelos basados en transformadores, es decir, BERT multilingüe, Distil-BERT, Hindi-BERT y Hindi-TPU-Electra. Los resultados experimentales indican que los modelos BERT multilingüe y Hindi-BERT proporcionan el mejor rendimiento, con el puntaje F1 más alto del 84% en los datos de prueba. Estos resultados respaldan firmemente la eficacia de la solución propuesta e indican su adecuación para la clasificación de propaganda.
Descripción
La desinformación, las noticias falsas y diversas técnicas de propaganda se utilizan cada vez más en los medios digitales. Se vuelve desafiante descubrir la propaganda ya que trabaja con el objetivo sistemático de influir en otras personas para alcanzar fines determinados. Aunque se ha informado ampliamente sobre la identificación y clasificación de la propaganda en idiomas ricos en recursos como el inglés, se ha hecho mucho menos esfuerzo en idiomas carentes de recursos como el hindi. La propagación de la propaganda en los medios de comunicación en hindi ha inducido nuestro intento de idear un enfoque para la categorización de la propaganda de artículos de noticias en hindi. La falta de herramientas lingüísticas necesarias hace que la clasificación de propaganda en hindi sea más desafiante. Este estudio propone el uso efectivo de enfoques basados en aprendizaje profundo y transformadores para la clasificación computacional de propaganda en hindi. Para abordar la falta de incrustaciones de palabras preentrenadas en hindi, se crearon incrustaciones de palabras en hindi Word2vec utilizando el corpus H-Prop-News para la extracción de características. Posteriormente, se experimentó con tres modelos de aprendizaje profundo, es decir, CNN (red neuronal convolucional), LSTM (memoria a corto y largo plazo), Bi-LSTM (memoria a corto y largo plazo bidireccional); y cuatro modelos basados en transformadores, es decir, BERT multilingüe, Distil-BERT, Hindi-BERT y Hindi-TPU-Electra. Los resultados experimentales indican que los modelos BERT multilingüe y Hindi-BERT proporcionan el mejor rendimiento, con el puntaje F1 más alto del 84% en los datos de prueba. Estos resultados respaldan firmemente la eficacia de la solución propuesta e indican su adecuación para la clasificación de propaganda.