Representación de texto aprendida para la recuperación de información en amárico y procesamiento de lenguaje natural

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Representación de texto aprendida para la recuperación de información en amárico y procesamiento de lenguaje natural

Autores: Yeshambel, Tilahun; Mothe, Josiane; Assabie, Yaregal

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Representación de texto aprendida para la recuperación de información en amárico y procesamiento de lenguaje natural

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Embeddings de palabras

Modelos BERT

Tareas de PLN

Idioma amhárico

Modelos preentrenados

Representaciones de texto

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En los últimos años, las incrustaciones de palabras y las representaciones de codificadores bidireccionales de modelos de transformadores (BERT) han proporcionado mejores soluciones para aprender representaciones de texto para el procesamiento del lenguaje natural (NLP) y otras tareas. Muchas aplicaciones de NLP dependen de representaciones de texto preentrenadas, lo que ha llevado al desarrollo de varios modelos de lenguaje de redes neuronales para diferentes idiomas. Sin embargo, este no es el caso del amhárico, que se conoce por ser un idioma morfológicamente complejo y con pocos recursos. No hay modelos preentrenados utilizables para el procesamiento automático de texto en amhárico. Este documento presenta una investigación sobre la esencia de la representación de texto aprendida para la recuperación de información y tareas de NLP utilizando incrustaciones de palabras y modelos de lenguaje BERT. Exploramos los métodos más comúnmente utilizados para las incrustaciones de palabras, incluyendo word2vec, GloVe y fastText, así como el modelo BERT. Investigamos el rendimiento de la expansión de consultas utilizando incrustaciones de palabras. También analizamos el uso de un modelo BERT preentrenado en amhárico para modelado de lenguaje enmascarado, predicción de la siguiente oración y tareas de clasificación de texto. Se utilizaron colecciones de pruebas de recuperación de información ad hoc en amhárico que contienen representaciones de texto basadas en palabras, basadas en raíces y basadas en tallos para la evaluación. Realizamos un análisis empírico detallado sobre la usabilidad de las incrustaciones de palabras y los modelos BERT en corpora basados en palabras, basados en tallos y basados en raíces. Los resultados experimentales muestran que la expansión de consultas basada en palabras y el modelado de lenguaje tienen un mejor rendimiento que las representaciones de texto basadas en tallos y raíces, y fastText supera a otras incrustaciones de palabras en el corpus basado en palabras.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro