Representación de texto aprendida para la recuperación de información en amárico y procesamiento de lenguaje natural
Autores: Yeshambel, Tilahun; Mothe, Josiane; Assabie, Yaregal
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Representación de texto aprendida para la recuperación de información en amárico y procesamiento de lenguaje natural
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Embeddings de palabras
Modelos BERT
Tareas de PLN
Idioma amhárico
Modelos preentrenados
Representaciones de texto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los últimos años, las incrustaciones de palabras y las representaciones de codificadores bidireccionales de modelos de transformadores (BERT) han proporcionado mejores soluciones para aprender representaciones de texto para el procesamiento del lenguaje natural (NLP) y otras tareas. Muchas aplicaciones de NLP dependen de representaciones de texto preentrenadas, lo que ha llevado al desarrollo de varios modelos de lenguaje de redes neuronales para diferentes idiomas. Sin embargo, este no es el caso del amhárico, que se conoce por ser un idioma morfológicamente complejo y con pocos recursos. No hay modelos preentrenados utilizables para el procesamiento automático de texto en amhárico. Este documento presenta una investigación sobre la esencia de la representación de texto aprendida para la recuperación de información y tareas de NLP utilizando incrustaciones de palabras y modelos de lenguaje BERT. Exploramos los métodos más comúnmente utilizados para las incrustaciones de palabras, incluyendo word2vec, GloVe y fastText, así como el modelo BERT. Investigamos el rendimiento de la expansión de consultas utilizando incrustaciones de palabras. También analizamos el uso de un modelo BERT preentrenado en amhárico para modelado de lenguaje enmascarado, predicción de la siguiente oración y tareas de clasificación de texto. Se utilizaron colecciones de pruebas de recuperación de información ad hoc en amhárico que contienen representaciones de texto basadas en palabras, basadas en raíces y basadas en tallos para la evaluación. Realizamos un análisis empírico detallado sobre la usabilidad de las incrustaciones de palabras y los modelos BERT en corpora basados en palabras, basados en tallos y basados en raíces. Los resultados experimentales muestran que la expansión de consultas basada en palabras y el modelado de lenguaje tienen un mejor rendimiento que las representaciones de texto basadas en tallos y raíces, y fastText supera a otras incrustaciones de palabras en el corpus basado en palabras.
Descripción
En los últimos años, las incrustaciones de palabras y las representaciones de codificadores bidireccionales de modelos de transformadores (BERT) han proporcionado mejores soluciones para aprender representaciones de texto para el procesamiento del lenguaje natural (NLP) y otras tareas. Muchas aplicaciones de NLP dependen de representaciones de texto preentrenadas, lo que ha llevado al desarrollo de varios modelos de lenguaje de redes neuronales para diferentes idiomas. Sin embargo, este no es el caso del amhárico, que se conoce por ser un idioma morfológicamente complejo y con pocos recursos. No hay modelos preentrenados utilizables para el procesamiento automático de texto en amhárico. Este documento presenta una investigación sobre la esencia de la representación de texto aprendida para la recuperación de información y tareas de NLP utilizando incrustaciones de palabras y modelos de lenguaje BERT. Exploramos los métodos más comúnmente utilizados para las incrustaciones de palabras, incluyendo word2vec, GloVe y fastText, así como el modelo BERT. Investigamos el rendimiento de la expansión de consultas utilizando incrustaciones de palabras. También analizamos el uso de un modelo BERT preentrenado en amhárico para modelado de lenguaje enmascarado, predicción de la siguiente oración y tareas de clasificación de texto. Se utilizaron colecciones de pruebas de recuperación de información ad hoc en amhárico que contienen representaciones de texto basadas en palabras, basadas en raíces y basadas en tallos para la evaluación. Realizamos un análisis empírico detallado sobre la usabilidad de las incrustaciones de palabras y los modelos BERT en corpora basados en palabras, basados en tallos y basados en raíces. Los resultados experimentales muestran que la expansión de consultas basada en palabras y el modelado de lenguaje tienen un mejor rendimiento que las representaciones de texto basadas en tallos y raíces, y fastText supera a otras incrustaciones de palabras en el corpus basado en palabras.