Modelo de Embedding de Palabras Basado en Puntuación y Corpus Paralelo para Lenguas de Bajo Recurso
Autores: Yuan, Yang; Li, Xiao; Yang, Ya-Ting
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Modelo de Embedding de Palabras Basado en Puntuación y Corpus Paralelo para Lenguas de Bajo Recurso
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Escasez de datos
Incrustación de palabras
Puntuación
Corpus paralelo
Función de atenuación de distancia
Corpus paralelo bilingüe
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para superar la escasez de datos en el modelo de incrustación de palabras entrenado en lenguas de bajos recursos, proponemos un modelo de incrustación de palabras basado en la puntuación y en un corpus paralelo. En particular, generamos la matriz de co-ocurrencia de pares de palabras global con la función de atenuación de distancia basada en la puntuación, e integramos esto con los vectores de palabras intermedios generados a partir del corpus paralelo bilingüe de pequeña escala para entrenar la incrustación de palabras. Los resultados experimentales muestran que, en comparación con varios modelos de referencia ampliamente utilizados como GloVe y Word2vec, nuestro modelo mejora significativamente el rendimiento de la incrustación de palabras para lenguas de bajos recursos. Entrenado en el corpus restringido de inglés-chino, nuestro modelo ha mejorado en 0.71 puntos porcentuales en la tarea de analogía de palabras y ha logrado los mejores resultados en todas las tareas de similitud de palabras.
Descripción
Para superar la escasez de datos en el modelo de incrustación de palabras entrenado en lenguas de bajos recursos, proponemos un modelo de incrustación de palabras basado en la puntuación y en un corpus paralelo. En particular, generamos la matriz de co-ocurrencia de pares de palabras global con la función de atenuación de distancia basada en la puntuación, e integramos esto con los vectores de palabras intermedios generados a partir del corpus paralelo bilingüe de pequeña escala para entrenar la incrustación de palabras. Los resultados experimentales muestran que, en comparación con varios modelos de referencia ampliamente utilizados como GloVe y Word2vec, nuestro modelo mejora significativamente el rendimiento de la incrustación de palabras para lenguas de bajos recursos. Entrenado en el corpus restringido de inglés-chino, nuestro modelo ha mejorado en 0.71 puntos porcentuales en la tarea de analogía de palabras y ha logrado los mejores resultados en todas las tareas de similitud de palabras.