Sabemos que estás viviendo en Bali: Predicción de ubicación de usuarios de Twitter utilizando el modelo de lenguaje BERT
Autores: Simanjuntak, Lihardo Faisal; Mahendra, Rahmad; Yulianti, Evi
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Sabemos que estás viviendo en Bali: Predicción de ubicación de usuarios de Twitter utilizando el modelo de lenguaje BERT
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Ubicación del usuario
Tweets indonesios
Aprendizaje automático
LSTM
BERT
Twitter
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Los datos de ubicación de los usuarios de Twitter proporcionan información esencial que se puede utilizar para diversos fines. Sin embargo, la ubicación del usuario no es fácil de identificar porque muchos perfiles omiten esta información, o los usuarios ingresan datos que no corresponden a sus ubicaciones reales. Varios trabajos relacionados intentaron predecir la ubicación en tweets en inglés. En este estudio, intentamos predecir la ubicación de tweets en indonesio. Utilizamos enfoques de aprendizaje automático, es decir, memoria a largo plazo (LSTM) y representaciones de codificador bidireccional de transformadores (BERT) para inferir las ubicaciones de origen de los usuarios de Twitter utilizando el nombre de visualización en el perfil, la descripción del usuario y los tweets del usuario. Al concatenar el nombre de visualización, la descripción y el tweet agregado, el modelo logró la mejor precisión de 0.77. El rendimiento del modelo IndoBERT superó a varios modelos de referencia.
Descripción
Los datos de ubicación de los usuarios de Twitter proporcionan información esencial que se puede utilizar para diversos fines. Sin embargo, la ubicación del usuario no es fácil de identificar porque muchos perfiles omiten esta información, o los usuarios ingresan datos que no corresponden a sus ubicaciones reales. Varios trabajos relacionados intentaron predecir la ubicación en tweets en inglés. En este estudio, intentamos predecir la ubicación de tweets en indonesio. Utilizamos enfoques de aprendizaje automático, es decir, memoria a largo plazo (LSTM) y representaciones de codificador bidireccional de transformadores (BERT) para inferir las ubicaciones de origen de los usuarios de Twitter utilizando el nombre de visualización en el perfil, la descripción del usuario y los tweets del usuario. Al concatenar el nombre de visualización, la descripción y el tweet agregado, el modelo logró la mejor precisión de 0.77. El rendimiento del modelo IndoBERT superó a varios modelos de referencia.