La evolución de los modelos de lenguaje aplicados al análisis de emociones en tweets en árabe
Autores: Al-Twairesh, Nora
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
La evolución de los modelos de lenguaje aplicados al análisis de emociones en tweets en árabe
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Procesamiento de lenguaje natural
Modelos de representación del lenguaje
Análisis de emociones
árabe
Técnicas de aprendizaje automático
BERT
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El campo del procesamiento del lenguaje natural (NLP) ha sido testigo de un auge en los modelos de representación del lenguaje con la introducción de modelos de lenguaje preentrenados que se entrenan en grandes datos textuales y luego se utilizan para ajustar tareas de NLP posteriores. En este artículo, nuestro objetivo es estudiar la evolución de los modelos de representación del lenguaje analizando su efecto en una tarea de NLP poco investigada: el análisis de emociones; para un idioma de bajos recursos: el árabe. La mayoría de los estudios en el campo del análisis afectivo se han centrado en el análisis de sentimientos, es decir, clasificar el texto en valencia (positivo, negativo, neutral), mientras que pocos estudios van más allá para analizar los estados emocionales más finos (felicidad, tristeza, ira, etc.). El análisis de emociones es un problema de clasificación de texto que se aborda utilizando técnicas de aprendizaje automático. Se han utilizado diferentes modelos de representación del lenguaje como características para que estos modelos de aprendizaje automático aprendan. En este artículo, realizamos un estudio empírico sobre la evolución de los modelos de lenguaje, desde la tradicional frecuencia de término-frecuencia inversa de documento (TF-IDF) hasta el más sofisticado word embedding word2vec, y finalmente el reciente modelo de lenguaje preentrenado de última generación, representaciones de codificadores bidireccionales de transformadores (BERT). Observamos y analizamos cómo aumenta el rendimiento a medida que cambiamos el modelo de lenguaje. También investigamos diferentes modelos de BERT para árabe. Encontramos que el mejor rendimiento se logra con el modelo grande ArabicBERT, que es un modelo BERT entrenado en un gran conjunto de datos de texto árabe. El aumento en la puntuación F1 fue significativo, del +7 al 21%.
Descripción
El campo del procesamiento del lenguaje natural (NLP) ha sido testigo de un auge en los modelos de representación del lenguaje con la introducción de modelos de lenguaje preentrenados que se entrenan en grandes datos textuales y luego se utilizan para ajustar tareas de NLP posteriores. En este artículo, nuestro objetivo es estudiar la evolución de los modelos de representación del lenguaje analizando su efecto en una tarea de NLP poco investigada: el análisis de emociones; para un idioma de bajos recursos: el árabe. La mayoría de los estudios en el campo del análisis afectivo se han centrado en el análisis de sentimientos, es decir, clasificar el texto en valencia (positivo, negativo, neutral), mientras que pocos estudios van más allá para analizar los estados emocionales más finos (felicidad, tristeza, ira, etc.). El análisis de emociones es un problema de clasificación de texto que se aborda utilizando técnicas de aprendizaje automático. Se han utilizado diferentes modelos de representación del lenguaje como características para que estos modelos de aprendizaje automático aprendan. En este artículo, realizamos un estudio empírico sobre la evolución de los modelos de lenguaje, desde la tradicional frecuencia de término-frecuencia inversa de documento (TF-IDF) hasta el más sofisticado word embedding word2vec, y finalmente el reciente modelo de lenguaje preentrenado de última generación, representaciones de codificadores bidireccionales de transformadores (BERT). Observamos y analizamos cómo aumenta el rendimiento a medida que cambiamos el modelo de lenguaje. También investigamos diferentes modelos de BERT para árabe. Encontramos que el mejor rendimiento se logra con el modelo grande ArabicBERT, que es un modelo BERT entrenado en un gran conjunto de datos de texto árabe. El aumento en la puntuación F1 fue significativo, del +7 al 21%.