Un enfoque de asignación latente de Dirichlet guiado por semillas para predecir la personalidad de los usuarios en línea utilizando el modelo PEN
Autores: Sagadevan, Saravanan; Malim, Nurul Hashimah Ahamed Hassain; Husin, Mohd Heikal
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un enfoque de asignación latente de Dirichlet guiado por semillas para predecir la personalidad de los usuarios en línea utilizando el modelo PEN
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Interés
Modelado de temas
Redes sociales
Rasgos de personalidad
Psicolingüística
Asignación Latente Dirichlet guiada por semilla
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Existe un creciente interés en la modelización de temas para descifrar la información valiosa incrustada en textos naturales. Sin embargo, no hay estudios que entrenen un modelo no supervisado para categorizar automáticamente los mensajes de las redes sociales (SN) según los rasgos de personalidad. La mayoría de la literatura existente se basaba en el marco de los Cinco Grandes y en informes psicológicos para reconocer la personalidad de los usuarios. Además, la recopilación de conjuntos de datos para otros temas de personalidad es un problema inherente que requiere un tiempo y esfuerzo humano sin precedentes, y está limitado por restricciones de privacidad. Alternativamente, este estudio planteó la hipótesis de que un pequeño conjunto de palabras semilla es suficiente para descifrar los estados psicolingüísticos codificados en los textos, y que el conocimiento auxiliar podría potenciar el modelo no supervisado para categorizar los mensajes según los rasgos humanos. Por lo tanto, este estudio ideó un modelo sin datos llamado Asignación Latente de Dirichlet guiada por Semillas (SLDA) para categorizar los mensajes de las SN según el modelo PEN que comprendía los rasgos de Psicoticismo, Extraversión y Neuroticismo. Las evaluaciones intrínsecas se realizaron para determinar el rendimiento y revelar la naturaleza de los textos generados por SLDA, especialmente en el contexto del Psicoticismo. Las evaluaciones extrínsecas se realizaron utilizando varios clasificadores de aprendizaje automático para plantear qué tan bien el modelo de temas ha identificado la estructura semántica latente que persiste con el tiempo en los documentos de entrenamiento. Los resultados han mostrado que SLDA superó a otros modelos al alcanzar una puntuación de coherencia de hasta 0.78, mientras que los clasificadores de aprendizaje automático pueden lograr una precisión de hasta 0.993. También compartiremos el corpus generado por SLDA para futuros estudios empíricos.
Descripción
Existe un creciente interés en la modelización de temas para descifrar la información valiosa incrustada en textos naturales. Sin embargo, no hay estudios que entrenen un modelo no supervisado para categorizar automáticamente los mensajes de las redes sociales (SN) según los rasgos de personalidad. La mayoría de la literatura existente se basaba en el marco de los Cinco Grandes y en informes psicológicos para reconocer la personalidad de los usuarios. Además, la recopilación de conjuntos de datos para otros temas de personalidad es un problema inherente que requiere un tiempo y esfuerzo humano sin precedentes, y está limitado por restricciones de privacidad. Alternativamente, este estudio planteó la hipótesis de que un pequeño conjunto de palabras semilla es suficiente para descifrar los estados psicolingüísticos codificados en los textos, y que el conocimiento auxiliar podría potenciar el modelo no supervisado para categorizar los mensajes según los rasgos humanos. Por lo tanto, este estudio ideó un modelo sin datos llamado Asignación Latente de Dirichlet guiada por Semillas (SLDA) para categorizar los mensajes de las SN según el modelo PEN que comprendía los rasgos de Psicoticismo, Extraversión y Neuroticismo. Las evaluaciones intrínsecas se realizaron para determinar el rendimiento y revelar la naturaleza de los textos generados por SLDA, especialmente en el contexto del Psicoticismo. Las evaluaciones extrínsecas se realizaron utilizando varios clasificadores de aprendizaje automático para plantear qué tan bien el modelo de temas ha identificado la estructura semántica latente que persiste con el tiempo en los documentos de entrenamiento. Los resultados han mostrado que SLDA superó a otros modelos al alcanzar una puntuación de coherencia de hasta 0.78, mientras que los clasificadores de aprendizaje automático pueden lograr una precisión de hasta 0.993. También compartiremos el corpus generado por SLDA para futuros estudios empíricos.