logo móvil
Contáctanos

Estimación de rasgos demográficos de los diputados a través de debates parlamentarios utilizando aprendizaje automático

Autores: Polat, Huseyin; Korpe, Mesut

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Estimación de rasgos demográficos de los diputados a través de debates parlamentarios utilizando aprendizaje automático


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aplicaciones
Procesamiento de lenguaje natural
Aprendizaje automático
Aprendizaje profundo
Perfilado de autor
Rasgos demográficos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
Una de las aplicaciones más impresionantes del uso combinado de procesamiento de lenguaje natural (NLP), aprendizaje automático clásico y enfoques de aprendizaje profundo (DL) es la estimación de rasgos demográficos a partir del texto. El Perfilado de Autores (AP) es el análisis de un texto para identificar la demografía o características de su autor. Hasta ahora, la mayoría de los investigadores en este campo se han centrado en el uso de datos de redes sociales en el idioma inglés. Este artículo tiene como objetivo ampliar el potencial predictivo de rasgos demográficos al centrarse en un conjunto de datos y un idioma más diversos. Conocer el trasfondo de los diputados es esencial para los ciudadanos, los científicos políticos y los responsables políticos. En este estudio, presentamos la aplicación de enfoques de NLP y aprendizaje automático (ML) a los debates parlamentarios turcos para estimar los rasgos demográficos de los diputados. Se determinaron siete rasgos: género, edad, educación, ocupación, región de elección, partido y estado del partido. Como primer paso, se compiló un corpus a partir de debates parlamentarios turcos entre 2012 y 2020. Las representaciones de documentos (extracción de características) se realizaron utilizando diversas técnicas de NLP. Luego, creamos subconjuntos de datos que contenían las características extraídas del corpus. Estos subconjuntos de datos fueron utilizados por diferentes algoritmos de clasificación de ML. Las mejores tasas de precisión de clasificación fueron más del 31%, 27%, 35%, 41%, 29%, 59% y 32% según la línea base de la mayoría para género, edad, educación, ocupación, región de elección, partido y estado del partido, respectivamente. Los resultados experimentales muestran que la demografía de los diputados puede estimarse de manera efectiva utilizando enfoques de NLP, ML clásico y DL.

Otros recursos que podrían interesarte

Temas Virtualpro