Llegando a un entendimiento sobre la predicción de edad en datos de preguntas y respuestas comunitarias multimodales desbalanceados
Autores: Figueroa, Alejandro; Peralta, Billy; Nicolis, Orietta
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Llegando a un entendimiento sobre la predicción de edad en datos de preguntas y respuestas comunitarias multimodales desbalanceados
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Servicio en línea
Análisis demográfico por edad
Actividad maliciosa
Demografía de usuarios
Modelos de aprendizaje automático supervisado
Modelos supervisados multimodales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para casi todos los servicios en línea, es fundamental entender los patrones, diferencias y tendencias reveladas por el análisis demográfico por edad; por ejemplo, tomar el descubrimiento de actividades maliciosas, incluyendo el robo de identidad, la violación de las pautas comunitarias y los perfiles falsos. En el caso particular de plataformas como Facebook, Twitter y Yahoo! Respuestas, la demografía de los usuarios tiene un impacto en sus ingresos y en la experiencia del usuario; la demografía ayuda a garantizar que se satisfagan las necesidades de cada cohorte mediante la personalización y contextualización del contenido. A pesar de que la tecnología se ha vuelto más accesible, convirtiéndose en algo cada vez más prevalente tanto en la vida personal como profesional, las personas mayores continúan rezagadas respecto a la Generación Z y los Millennials en su adopción. Este rezago provoca una subrepresentación que tiene una influencia perjudicial en el análisis demográfico y en los modelos de aprendizaje automático supervisado. Con ese fin, este documento pionero intenta examinar este y otros grandes desafíos que enfrentan tres modalidades distintas al tratar con plataformas de preguntas y respuestas comunitarias (cQA) (es decir, textos, imágenes y metadatos). En cuanto a las entradas textuales, proponemos un enfoque de aprendizaje curricular codicioso por lotes de edad (AGCL) para reducir los efectos de sus desequilibrios de clase inherentes. Cuando se construyó sobre redes neuronales superficiales FastText, AGCL logró un aumento de aproximadamente el 4% en la puntuación macro-F1 en comparación con los sistemas base (es decir, redes neuronales profundas estándar). Con respecto a los metadatos, nuestros experimentos muestran que los clasificadores de bosques aleatorios mejoran significativamente su rendimiento cuando se excluyen individuos cercanos a las fronteras generacionales (hasta un 20% más de precisión); y al experimentar con clasificadores visuales basados en redes neuronales, descubrimos que las imágenes son la modalidad más desafiante para la predicción de edad. De hecho, es difícil para una inspección visual conectar las fotos de perfil con las cohortes de edad, y hay diferencias considerables en sus distribuciones grupales con respecto a los metadatos y las entradas textuales. En resumen, prevemos que nuestros hallazgos serán altamente relevantes como pautas para construir modelos supervisados multimodales variados para el reconocimiento automático de edad en plataformas cQA.
Descripción
Para casi todos los servicios en línea, es fundamental entender los patrones, diferencias y tendencias reveladas por el análisis demográfico por edad; por ejemplo, tomar el descubrimiento de actividades maliciosas, incluyendo el robo de identidad, la violación de las pautas comunitarias y los perfiles falsos. En el caso particular de plataformas como Facebook, Twitter y Yahoo! Respuestas, la demografía de los usuarios tiene un impacto en sus ingresos y en la experiencia del usuario; la demografía ayuda a garantizar que se satisfagan las necesidades de cada cohorte mediante la personalización y contextualización del contenido. A pesar de que la tecnología se ha vuelto más accesible, convirtiéndose en algo cada vez más prevalente tanto en la vida personal como profesional, las personas mayores continúan rezagadas respecto a la Generación Z y los Millennials en su adopción. Este rezago provoca una subrepresentación que tiene una influencia perjudicial en el análisis demográfico y en los modelos de aprendizaje automático supervisado. Con ese fin, este documento pionero intenta examinar este y otros grandes desafíos que enfrentan tres modalidades distintas al tratar con plataformas de preguntas y respuestas comunitarias (cQA) (es decir, textos, imágenes y metadatos). En cuanto a las entradas textuales, proponemos un enfoque de aprendizaje curricular codicioso por lotes de edad (AGCL) para reducir los efectos de sus desequilibrios de clase inherentes. Cuando se construyó sobre redes neuronales superficiales FastText, AGCL logró un aumento de aproximadamente el 4% en la puntuación macro-F1 en comparación con los sistemas base (es decir, redes neuronales profundas estándar). Con respecto a los metadatos, nuestros experimentos muestran que los clasificadores de bosques aleatorios mejoran significativamente su rendimiento cuando se excluyen individuos cercanos a las fronteras generacionales (hasta un 20% más de precisión); y al experimentar con clasificadores visuales basados en redes neuronales, descubrimos que las imágenes son la modalidad más desafiante para la predicción de edad. De hecho, es difícil para una inspección visual conectar las fotos de perfil con las cohortes de edad, y hay diferencias considerables en sus distribuciones grupales con respecto a los metadatos y las entradas textuales. En resumen, prevemos que nuestros hallazgos serán altamente relevantes como pautas para construir modelos supervisados multimodales variados para el reconocimiento automático de edad en plataformas cQA.