Un análisis comparativo de la incrustación de palabras y el aprendizaje profundo para la clasificación de sentimientos en árabe
Autores: Sabbeh, Sahar F.; Fasihuddin, Heba A.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un análisis comparativo de la incrustación de palabras y el aprendizaje profundo para la clasificación de sentimientos en árabe
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Análisis de sentimientos
Plataformas de redes sociales
Modelos de aprendizaje profundo
Incrustación de palabras
Desafíos de PNL
Modelo de incrustación contextualizada
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
El análisis de sentimientos en plataformas de redes sociales (por ejemplo, Twitter o Facebook) se ha convertido en una herramienta importante para conocer las opiniones y preferencias de los usuarios. Sin embargo, la precisión del análisis de sentimientos se ve afectada por los desafíos del procesamiento del lenguaje natural (NLP). Recientemente, los modelos de aprendizaje profundo han demostrado un rendimiento superior sobre enfoques basados en estadísticas y léxicos en tareas relacionadas con NLP. La incrustación de palabras es una capa importante de los modelos de aprendizaje profundo para generar características de entrada. Se han presentado muchos modelos de incrustación de palabras para la representación de texto de incrustaciones de palabras clásicas y contextualizadas. En este documento, presentamos un análisis comparativo para evaluar las incrustaciones de palabras clásicas y contextualizadas para el análisis de sentimientos. Se utilizaron las cuatro técnicas de incrustación de palabras más utilizadas en sus versiones entrenadas y pre-entrenadas. La incrustación seleccionada representa técnicas clásicas y contextualizadas. La incrustación de palabras clásica incluye algoritmos como GloVe, Word2vec y FastText. En contraste, ARBERT se utiliza como un modelo de incrustación contextualizado. Dado que la incrustación de palabras se emplea más típicamente como la capa de entrada en redes profundas, utilizamos arquitecturas de aprendizaje profundo BiLSTM y CNN para la clasificación de sentimientos. Para lograr estos objetivos, los experimentos se aplicaron a una serie de conjuntos de datos de referencia: HARD, Khooli, AJGT, ArSAS y ASTD. Finalmente, se realizó un análisis comparativo sobre los resultados obtenidos para los modelos experimentados. Nuestros resultados indican que, en general, la incrustación generada por una técnica logra un rendimiento más alto que su versión pre-entrenada para la misma técnica en alrededor del 0.28 al 1.8% de precisión, 0.33 al 2.17% de precisión y 0.44 al 2% de recuperación. Además, el modelo de incrustación contextualizado basado en transformadores BERT logró el mejor rendimiento en sus versiones pre-entrenadas y entrenadas. Además, los resultados indican que BiLSTM supera a CNN en aproximadamente un 2% en 3 conjuntos de datos, HARD, Khooli y ArSAS, mientras que CNN logró alrededor de un 2% de rendimiento superior en los conjuntos de datos más pequeños, AJGT y ASTD.
Descripción
El análisis de sentimientos en plataformas de redes sociales (por ejemplo, Twitter o Facebook) se ha convertido en una herramienta importante para conocer las opiniones y preferencias de los usuarios. Sin embargo, la precisión del análisis de sentimientos se ve afectada por los desafíos del procesamiento del lenguaje natural (NLP). Recientemente, los modelos de aprendizaje profundo han demostrado un rendimiento superior sobre enfoques basados en estadísticas y léxicos en tareas relacionadas con NLP. La incrustación de palabras es una capa importante de los modelos de aprendizaje profundo para generar características de entrada. Se han presentado muchos modelos de incrustación de palabras para la representación de texto de incrustaciones de palabras clásicas y contextualizadas. En este documento, presentamos un análisis comparativo para evaluar las incrustaciones de palabras clásicas y contextualizadas para el análisis de sentimientos. Se utilizaron las cuatro técnicas de incrustación de palabras más utilizadas en sus versiones entrenadas y pre-entrenadas. La incrustación seleccionada representa técnicas clásicas y contextualizadas. La incrustación de palabras clásica incluye algoritmos como GloVe, Word2vec y FastText. En contraste, ARBERT se utiliza como un modelo de incrustación contextualizado. Dado que la incrustación de palabras se emplea más típicamente como la capa de entrada en redes profundas, utilizamos arquitecturas de aprendizaje profundo BiLSTM y CNN para la clasificación de sentimientos. Para lograr estos objetivos, los experimentos se aplicaron a una serie de conjuntos de datos de referencia: HARD, Khooli, AJGT, ArSAS y ASTD. Finalmente, se realizó un análisis comparativo sobre los resultados obtenidos para los modelos experimentados. Nuestros resultados indican que, en general, la incrustación generada por una técnica logra un rendimiento más alto que su versión pre-entrenada para la misma técnica en alrededor del 0.28 al 1.8% de precisión, 0.33 al 2.17% de precisión y 0.44 al 2% de recuperación. Además, el modelo de incrustación contextualizado basado en transformadores BERT logró el mejor rendimiento en sus versiones pre-entrenadas y entrenadas. Además, los resultados indican que BiLSTM supera a CNN en aproximadamente un 2% en 3 conjuntos de datos, HARD, Khooli y ArSAS, mientras que CNN logró alrededor de un 2% de rendimiento superior en los conjuntos de datos más pequeños, AJGT y ASTD.