Análisis de Tweets en Tiempo Real Usando Hashtags Híbridos en Flujos de Big Data de Twitter
Autores: Gupta, Vibhuti; Hewett, Rattikorn
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Análisis de Tweets en Tiempo Real Usando Hashtags Híbridos en Flujos de Big Data de Twitter
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Plataforma de microblogging
Flujos de Big Data
Hashtags
Clasificación de temas de tweets
Análisis en tiempo real
Apache Storm
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Twitter es una plataforma de microblogging que genera grandes volúmenes de datos con alta velocidad. Esta generación diaria de datos ilimitados y continuos conduce a flujos de Big Data que a menudo requieren procesamiento distribuido en tiempo real y completamente automatizado. Los hashtags, palabras hipervinculadas en los tweets, se utilizan ampliamente para la clasificación, recuperación y agrupamiento de temas de tweets. Los hashtags se utilizan ampliamente para analizar los sentimientos de los tweets, donde las emociones pueden clasificarse sin contextos. Sin embargo, a pesar del amplio uso de hashtags, la clasificación general de temas de tweets utilizando hashtags es un desafío debido a su naturaleza en evolución, falta de contexto, jerga, abreviaturas y expresiones no estandarizadas por parte de los usuarios. La mayoría de los enfoques existentes, que utilizan hashtags para la clasificación de temas de tweets, se centran en extraer conceptos de hashtags de recursos léxicos externos para derivar semántica. Sin embargo, debido a la rápida evolución y la expresión no estandarizada de los hashtags, la mayoría de estos recursos léxicos sufren de la falta de palabras de hashtags en sus bases de conocimiento o utilizan múltiples recursos a la vez para derivar semántica, lo que los hace no escalables. Junto con técnicas escalables y automatizadas para la clasificación de temas de tweets utilizando hashtags, también hay una necesidad de enfoques de análisis en tiempo real para manejar flujos textuales enormes y dinámicos generados por Twitter. Para abordar estos problemas, este documento presenta primero una técnica semiautomática novedosa que deriva hashtags semánticamente relevantes utilizando una base de conocimiento específica del dominio de conceptos temáticos y los combina con los hashtags existentes basados en tweets para producir Hashtags Híbridos. Además, para lidiar con la velocidad y el volumen de los flujos de Big Data de tweets, presentamos un enfoque en línea que actualiza el preprocesamiento y el modelo de aprendizaje de manera incremental en un entorno de transmisión en tiempo real utilizando el marco distribuido Apache Storm. Finalmente, para aprovechar al máximo las ventajas de rendimiento del entorno por lotes y de transmisión, proponemos un marco integral (marco de clasificación de temas de tweets basado en hashtags híbridos (HHTC)) que combina mecanismos por lotes y en línea de la manera más efectiva. Evaluaciones experimentales extensas sobre un gran volumen de datos de Twitter muestran que los mecanismos por lotes y en línea, junto con su combinación en el marco propuesto, son escalables, eficientes y proporcionan una clasificación efectiva de temas de tweets utilizando hashtags.
Descripción
Twitter es una plataforma de microblogging que genera grandes volúmenes de datos con alta velocidad. Esta generación diaria de datos ilimitados y continuos conduce a flujos de Big Data que a menudo requieren procesamiento distribuido en tiempo real y completamente automatizado. Los hashtags, palabras hipervinculadas en los tweets, se utilizan ampliamente para la clasificación, recuperación y agrupamiento de temas de tweets. Los hashtags se utilizan ampliamente para analizar los sentimientos de los tweets, donde las emociones pueden clasificarse sin contextos. Sin embargo, a pesar del amplio uso de hashtags, la clasificación general de temas de tweets utilizando hashtags es un desafío debido a su naturaleza en evolución, falta de contexto, jerga, abreviaturas y expresiones no estandarizadas por parte de los usuarios. La mayoría de los enfoques existentes, que utilizan hashtags para la clasificación de temas de tweets, se centran en extraer conceptos de hashtags de recursos léxicos externos para derivar semántica. Sin embargo, debido a la rápida evolución y la expresión no estandarizada de los hashtags, la mayoría de estos recursos léxicos sufren de la falta de palabras de hashtags en sus bases de conocimiento o utilizan múltiples recursos a la vez para derivar semántica, lo que los hace no escalables. Junto con técnicas escalables y automatizadas para la clasificación de temas de tweets utilizando hashtags, también hay una necesidad de enfoques de análisis en tiempo real para manejar flujos textuales enormes y dinámicos generados por Twitter. Para abordar estos problemas, este documento presenta primero una técnica semiautomática novedosa que deriva hashtags semánticamente relevantes utilizando una base de conocimiento específica del dominio de conceptos temáticos y los combina con los hashtags existentes basados en tweets para producir Hashtags Híbridos. Además, para lidiar con la velocidad y el volumen de los flujos de Big Data de tweets, presentamos un enfoque en línea que actualiza el preprocesamiento y el modelo de aprendizaje de manera incremental en un entorno de transmisión en tiempo real utilizando el marco distribuido Apache Storm. Finalmente, para aprovechar al máximo las ventajas de rendimiento del entorno por lotes y de transmisión, proponemos un marco integral (marco de clasificación de temas de tweets basado en hashtags híbridos (HHTC)) que combina mecanismos por lotes y en línea de la manera más efectiva. Evaluaciones experimentales extensas sobre un gran volumen de datos de Twitter muestran que los mecanismos por lotes y en línea, junto con su combinación en el marco propuesto, son escalables, eficientes y proporcionan una clasificación efectiva de temas de tweets utilizando hashtags.