logo móvil
Contáctanos

Representación de texto aprendida para la recuperación de información en amárico y procesamiento de lenguaje natural

Autores: Yeshambel, Tilahun; Mothe, Josiane; Assabie, Yaregal

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Representación de texto aprendida para la recuperación de información en amárico y procesamiento de lenguaje natural


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Embeddings de palabras
Modelos BERT
Tareas de PLN
Idioma amhárico
Modelos preentrenados
Representaciones de texto

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En los últimos años, las incrustaciones de palabras y las representaciones de codificadores bidireccionales de modelos de transformadores (BERT) han proporcionado mejores soluciones para aprender representaciones de texto para el procesamiento del lenguaje natural (NLP) y otras tareas. Muchas aplicaciones de NLP dependen de representaciones de texto preentrenadas, lo que ha llevado al desarrollo de varios modelos de lenguaje de redes neuronales para diferentes idiomas. Sin embargo, este no es el caso del amhárico, que se conoce por ser un idioma morfológicamente complejo y con pocos recursos. No hay modelos preentrenados utilizables para el procesamiento automático de texto en amhárico. Este documento presenta una investigación sobre la esencia de la representación de texto aprendida para la recuperación de información y tareas de NLP utilizando incrustaciones de palabras y modelos de lenguaje BERT. Exploramos los métodos más comúnmente utilizados para las incrustaciones de palabras, incluyendo word2vec, GloVe y fastText, así como el modelo BERT. Investigamos el rendimiento de la expansión de consultas utilizando incrustaciones de palabras. También analizamos el uso de un modelo BERT preentrenado en amhárico para modelado de lenguaje enmascarado, predicción de la siguiente oración y tareas de clasificación de texto. Se utilizaron colecciones de pruebas de recuperación de información ad hoc en amhárico que contienen representaciones de texto basadas en palabras, basadas en raíces y basadas en tallos para la evaluación. Realizamos un análisis empírico detallado sobre la usabilidad de las incrustaciones de palabras y los modelos BERT en corpora basados en palabras, basados en tallos y basados en raíces. Los resultados experimentales muestran que la expansión de consultas basada en palabras y el modelado de lenguaje tienen un mejor rendimiento que las representaciones de texto basadas en tallos y raíces, y fastText supera a otras incrustaciones de palabras en el corpus basado en palabras.

Otros recursos que podrían interesarte

Temas Virtualpro