Estimación de rasgos demográficos de los diputados a través de debates parlamentarios utilizando aprendizaje automático
Autores: Polat, Huseyin; Korpe, Mesut
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Estimación de rasgos demográficos de los diputados a través de debates parlamentarios utilizando aprendizaje automático
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aplicaciones
Procesamiento de lenguaje natural
Aprendizaje automático
Aprendizaje profundo
Perfilado de autor
Rasgos demográficos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Una de las aplicaciones más impresionantes del uso combinado de procesamiento de lenguaje natural (NLP), aprendizaje automático clásico y enfoques de aprendizaje profundo (DL) es la estimación de rasgos demográficos a partir del texto. El Perfilado de Autores (AP) es el análisis de un texto para identificar la demografía o características de su autor. Hasta ahora, la mayoría de los investigadores en este campo se han centrado en el uso de datos de redes sociales en el idioma inglés. Este artículo tiene como objetivo ampliar el potencial predictivo de rasgos demográficos al centrarse en un conjunto de datos y un idioma más diversos. Conocer el trasfondo de los diputados es esencial para los ciudadanos, los científicos políticos y los responsables políticos. En este estudio, presentamos la aplicación de enfoques de NLP y aprendizaje automático (ML) a los debates parlamentarios turcos para estimar los rasgos demográficos de los diputados. Se determinaron siete rasgos: género, edad, educación, ocupación, región de elección, partido y estado del partido. Como primer paso, se compiló un corpus a partir de debates parlamentarios turcos entre 2012 y 2020. Las representaciones de documentos (extracción de características) se realizaron utilizando diversas técnicas de NLP. Luego, creamos subconjuntos de datos que contenían las características extraídas del corpus. Estos subconjuntos de datos fueron utilizados por diferentes algoritmos de clasificación de ML. Las mejores tasas de precisión de clasificación fueron más del 31%, 27%, 35%, 41%, 29%, 59% y 32% según la línea base de la mayoría para género, edad, educación, ocupación, región de elección, partido y estado del partido, respectivamente. Los resultados experimentales muestran que la demografía de los diputados puede estimarse de manera efectiva utilizando enfoques de NLP, ML clásico y DL.
Descripción
Una de las aplicaciones más impresionantes del uso combinado de procesamiento de lenguaje natural (NLP), aprendizaje automático clásico y enfoques de aprendizaje profundo (DL) es la estimación de rasgos demográficos a partir del texto. El Perfilado de Autores (AP) es el análisis de un texto para identificar la demografía o características de su autor. Hasta ahora, la mayoría de los investigadores en este campo se han centrado en el uso de datos de redes sociales en el idioma inglés. Este artículo tiene como objetivo ampliar el potencial predictivo de rasgos demográficos al centrarse en un conjunto de datos y un idioma más diversos. Conocer el trasfondo de los diputados es esencial para los ciudadanos, los científicos políticos y los responsables políticos. En este estudio, presentamos la aplicación de enfoques de NLP y aprendizaje automático (ML) a los debates parlamentarios turcos para estimar los rasgos demográficos de los diputados. Se determinaron siete rasgos: género, edad, educación, ocupación, región de elección, partido y estado del partido. Como primer paso, se compiló un corpus a partir de debates parlamentarios turcos entre 2012 y 2020. Las representaciones de documentos (extracción de características) se realizaron utilizando diversas técnicas de NLP. Luego, creamos subconjuntos de datos que contenían las características extraídas del corpus. Estos subconjuntos de datos fueron utilizados por diferentes algoritmos de clasificación de ML. Las mejores tasas de precisión de clasificación fueron más del 31%, 27%, 35%, 41%, 29%, 59% y 32% según la línea base de la mayoría para género, edad, educación, ocupación, región de elección, partido y estado del partido, respectivamente. Los resultados experimentales muestran que la demografía de los diputados puede estimarse de manera efectiva utilizando enfoques de NLP, ML clásico y DL.