Aprendiendo incrustaciones de subpalabras para mejorar el reconocimiento de entidades nombradas en uyghur
Autores: Saimaiti, Alimu; Wang, Lulu; Yibulayin, Tuergen
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Aprendiendo incrustaciones de subpalabras para mejorar el reconocimiento de entidades nombradas en uyghur
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Morfología rica
Lengua aglutinante
Segmentación morfológica
Reconocimiento de entidades nombradas en uigur
Arquitectura de red neuronal
Incrustación de subpalabras
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El uigur es un idioma morfológicamente rico y típicamente aglutinante, y la segmentación morfológica afecta el rendimiento del reconocimiento de entidades nombradas (NER) en uigur. Los sistemas comunes de NER en uigur utilizan la secuencia de palabras como entrada y dependen en gran medida de la ingeniería de características. Sin embargo, la información semántica no puede ser completamente aprendida y sufrirá fácilmente de la escasez de datos que surge de los procesos morfológicos cuando solo se considera la secuencia de palabras. Para resolver este problema, proporcionamos una arquitectura de red neuronal que emplea incrustaciones de subpalabras con incrustaciones de caracteres basadas en una red de memoria a largo y corto plazo bidireccional con una capa de campo aleatorio condicional. Nuestros experimentos muestran que la incrustación de subpalabras puede mejorar efectivamente el rendimiento del NER en uigur, y el método propuesto supera al método basado en la secuencia de palabras.
Descripción
El uigur es un idioma morfológicamente rico y típicamente aglutinante, y la segmentación morfológica afecta el rendimiento del reconocimiento de entidades nombradas (NER) en uigur. Los sistemas comunes de NER en uigur utilizan la secuencia de palabras como entrada y dependen en gran medida de la ingeniería de características. Sin embargo, la información semántica no puede ser completamente aprendida y sufrirá fácilmente de la escasez de datos que surge de los procesos morfológicos cuando solo se considera la secuencia de palabras. Para resolver este problema, proporcionamos una arquitectura de red neuronal que emplea incrustaciones de subpalabras con incrustaciones de caracteres basadas en una red de memoria a largo y corto plazo bidireccional con una capa de campo aleatorio condicional. Nuestros experimentos muestran que la incrustación de subpalabras puede mejorar efectivamente el rendimiento del NER en uigur, y el método propuesto supera al método basado en la secuencia de palabras.