sobre la utilización de codificación de emojis y preprocesamiento de datos con un marco combinado CNN-LSTM para análisis de sentimientos en árabe
Autores: Alawneh, Hussam; Hasasneh, Ahmad; Maree, Mohammed
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
sobre la utilización de codificación de emojis y preprocesamiento de datos con un marco combinado CNN-LSTM para análisis de sentimientos en árabe
Categoría
Procesos industriales
Subcategoría
Simulación de procesos industriales
Palabras clave
Redes sociales
Análisis de sentimientos
Texto en árabe
Técnicas de aprendizaje automático
Codificación de emojis
Ajuste de keras
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
Los usuarios de redes sociales a menudo expresan sus emociones a través de texto en publicaciones y tweets, y estos pueden ser utilizados para análisis de sentimientos, identificando el texto como positivo o negativo. El análisis de sentimientos es crítico para diferentes campos como la política, el turismo, el comercio electrónico, la educación y la salud. Sin embargo, los enfoques de análisis de sentimientos que funcionan bien en texto en inglés encuentran desafíos con el texto en árabe debido a su complejidad morfológica. El preprocesamiento efectivo de datos y las técnicas de aprendizaje automático son esenciales para superar estos desafíos y proporcionar predicciones de sentimientos perspicaces para el texto en árabe. Este artículo evalúa un marco combinado CNN-LSTM con codificación de emojis para el Análisis de Sentimientos en árabe, utilizando el conjunto de datos del Corpus de Twitter de Sentimientos en árabe (ASTC). Se realizaron tres experimentos con enfoques de fusión de ocho parámetros para evaluar el efecto del preprocesamiento de datos, es decir, el efecto de la codificación de emojis en su significado real y emocional. Los significados de los emojis fueron recopilados de cuatro sitios web especializados en encontrar el significado de emojis en redes sociales. Además, el sintonizador de Keras optimizó los parámetros de CNN-LSTM durante el proceso de validación cruzada de 5 pliegues. La tasa de precisión más alta (91.85%) se logró manteniendo las palabras no árabes y eliminando la puntuación, utilizando el stemmer de Snowball después de codificar emojis en texto árabe y aplicando el embedding de Keras. Este enfoque es competitivo con otros enfoques de vanguardia, mostrando que la codificación de emojis enriquece el texto al reflejar con precisión las emociones y permitir la investigación del efecto del preprocesamiento de datos, lo que permite que el modelo híbrido logre resultados comparables al estudio utilizando el mismo conjunto de datos ASTC, mejorando así la precisión del análisis de sentimientos.
Descripción
Los usuarios de redes sociales a menudo expresan sus emociones a través de texto en publicaciones y tweets, y estos pueden ser utilizados para análisis de sentimientos, identificando el texto como positivo o negativo. El análisis de sentimientos es crítico para diferentes campos como la política, el turismo, el comercio electrónico, la educación y la salud. Sin embargo, los enfoques de análisis de sentimientos que funcionan bien en texto en inglés encuentran desafíos con el texto en árabe debido a su complejidad morfológica. El preprocesamiento efectivo de datos y las técnicas de aprendizaje automático son esenciales para superar estos desafíos y proporcionar predicciones de sentimientos perspicaces para el texto en árabe. Este artículo evalúa un marco combinado CNN-LSTM con codificación de emojis para el Análisis de Sentimientos en árabe, utilizando el conjunto de datos del Corpus de Twitter de Sentimientos en árabe (ASTC). Se realizaron tres experimentos con enfoques de fusión de ocho parámetros para evaluar el efecto del preprocesamiento de datos, es decir, el efecto de la codificación de emojis en su significado real y emocional. Los significados de los emojis fueron recopilados de cuatro sitios web especializados en encontrar el significado de emojis en redes sociales. Además, el sintonizador de Keras optimizó los parámetros de CNN-LSTM durante el proceso de validación cruzada de 5 pliegues. La tasa de precisión más alta (91.85%) se logró manteniendo las palabras no árabes y eliminando la puntuación, utilizando el stemmer de Snowball después de codificar emojis en texto árabe y aplicando el embedding de Keras. Este enfoque es competitivo con otros enfoques de vanguardia, mostrando que la codificación de emojis enriquece el texto al reflejar con precisión las emociones y permitir la investigación del efecto del preprocesamiento de datos, lo que permite que el modelo híbrido logre resultados comparables al estudio utilizando el mismo conjunto de datos ASTC, mejorando así la precisión del análisis de sentimientos.