logo móvil
Contáctanos

Empoderando la detección de propaganda en idiomas con recursos limitados: un marco basado en transformadores para clasificar artículos de noticias en hindi

Autores: Chaudhari, Deptii; Pawar, Ambika Vishal

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Empoderando la detección de propaganda en idiomas con recursos limitados: un marco basado en transformadores para clasificar artículos de noticias en hindi


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Desinformación
Noticias falsas
Técnicas de propaganda
Medios digitales
Medios de comunicación en hindi
Aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
La desinformación, las noticias falsas y diversas técnicas de propaganda se utilizan cada vez más en los medios digitales. Se vuelve desafiante descubrir la propaganda ya que trabaja con el objetivo sistemático de influir en otras personas para alcanzar fines determinados. Aunque se ha informado ampliamente sobre la identificación y clasificación de la propaganda en idiomas ricos en recursos como el inglés, se ha hecho mucho menos esfuerzo en idiomas carentes de recursos como el hindi. La propagación de la propaganda en los medios de comunicación en hindi ha inducido nuestro intento de idear un enfoque para la categorización de la propaganda de artículos de noticias en hindi. La falta de herramientas lingüísticas necesarias hace que la clasificación de propaganda en hindi sea más desafiante. Este estudio propone el uso efectivo de enfoques basados en aprendizaje profundo y transformadores para la clasificación computacional de propaganda en hindi. Para abordar la falta de incrustaciones de palabras preentrenadas en hindi, se crearon incrustaciones de palabras en hindi Word2vec utilizando el corpus H-Prop-News para la extracción de características. Posteriormente, se experimentó con tres modelos de aprendizaje profundo, es decir, CNN (red neuronal convolucional), LSTM (memoria a corto y largo plazo), Bi-LSTM (memoria a corto y largo plazo bidireccional); y cuatro modelos basados en transformadores, es decir, BERT multilingüe, Distil-BERT, Hindi-BERT y Hindi-TPU-Electra. Los resultados experimentales indican que los modelos BERT multilingüe y Hindi-BERT proporcionan el mejor rendimiento, con el puntaje F1 más alto del 84% en los datos de prueba. Estos resultados respaldan firmemente la eficacia de la solución propuesta e indican su adecuación para la clasificación de propaganda.

Otros recursos que podrían interesarte

Temas Virtualpro