logo móvil
Contáctanos

Modelo de Embedding de Palabras Basado en Puntuación y Corpus Paralelo para Lenguas de Bajo Recurso

Autores: Yuan, Yang; Li, Xiao; Yang, Ya-Ting

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Modelo de Embedding de Palabras Basado en Puntuación y Corpus Paralelo para Lenguas de Bajo Recurso


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Escasez de datos
Incrustación de palabras
Puntuación
Corpus paralelo
Función de atenuación de distancia
Corpus paralelo bilingüe

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Para superar la escasez de datos en el modelo de incrustación de palabras entrenado en lenguas de bajos recursos, proponemos un modelo de incrustación de palabras basado en la puntuación y en un corpus paralelo. En particular, generamos la matriz de co-ocurrencia de pares de palabras global con la función de atenuación de distancia basada en la puntuación, e integramos esto con los vectores de palabras intermedios generados a partir del corpus paralelo bilingüe de pequeña escala para entrenar la incrustación de palabras. Los resultados experimentales muestran que, en comparación con varios modelos de referencia ampliamente utilizados como GloVe y Word2vec, nuestro modelo mejora significativamente el rendimiento de la incrustación de palabras para lenguas de bajos recursos. Entrenado en el corpus restringido de inglés-chino, nuestro modelo ha mejorado en 0.71 puntos porcentuales en la tarea de analogía de palabras y ha logrado los mejores resultados en todas las tareas de similitud de palabras.

Otros recursos que podrían interesarte

Temas Virtualpro