Red de Memoria a Largo y Corto Plazo Bidireccional con una Capa de Campo Aleatorio Condicional para el Etiquetado de Partes del Discurso en Uigur
Autores: Maimaiti, Maihemuti; Wumaier, Aishan; Abiderexiti, Kahaerjiang; Yibulayin, Tuergen
Idioma: Inglés
Editor: MDPI
Año: 2017
Acceso abierto
Artículo científico
2017
Red de Memoria a Largo y Corto Plazo Bidireccional con una Capa de Campo Aleatorio Condicional para el Etiquetado de Partes del Discurso en Uigur
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Lengua aglutinante
Lengua morfológicamente rica
Etiquetado de partes del discurso
Redes LSTM
Modelo CRF
Modelos de redes neuronales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El uigur es un idioma aglutinante y morfológicamente rico; las tareas de procesamiento del lenguaje natural en uigur pueden ser un desafío. La morfología de las palabras es importante en el etiquetado de partes del discurso (POS) en uigur. Sin embargo, el rendimiento del etiquetado POS sufre por la propagación de errores de los analizadores morfológicos. Para abordar este problema, proponemos algunos modelos para el etiquetado POS: campos aleatorios condicionales (CRF), memoria a largo y corto plazo (LSTM), redes LSTM bidireccionales (BI-LSTM), redes LSTM con una capa CRF y redes BI-LSTM con una capa CRF. Estos modelos no dependen de la derivación y la desambiguación de palabras para el uigur y combinan características elaboradas a mano con modelos de redes neuronales. Se logra un rendimiento de vanguardia en el etiquetado POS en uigur en conjuntos de datos de prueba utilizando el enfoque propuesto: 98.41% de precisión en 15 etiquetas y 95.74% de precisión en 64 etiquetas, lo que representa mejoras del 2.71% y 4%, respectivamente, sobre los resultados del modelo CRF. Utilizando características ingenierizadas, nuestro modelo logra mejoras adicionales del 0.2% (15 etiquetas) y 0.48% (64 etiquetas). Los resultados indican que el método propuesto podría ser un enfoque efectivo para el etiquetado POS en otros idiomas morfológicamente ricos.
Descripción
El uigur es un idioma aglutinante y morfológicamente rico; las tareas de procesamiento del lenguaje natural en uigur pueden ser un desafío. La morfología de las palabras es importante en el etiquetado de partes del discurso (POS) en uigur. Sin embargo, el rendimiento del etiquetado POS sufre por la propagación de errores de los analizadores morfológicos. Para abordar este problema, proponemos algunos modelos para el etiquetado POS: campos aleatorios condicionales (CRF), memoria a largo y corto plazo (LSTM), redes LSTM bidireccionales (BI-LSTM), redes LSTM con una capa CRF y redes BI-LSTM con una capa CRF. Estos modelos no dependen de la derivación y la desambiguación de palabras para el uigur y combinan características elaboradas a mano con modelos de redes neuronales. Se logra un rendimiento de vanguardia en el etiquetado POS en uigur en conjuntos de datos de prueba utilizando el enfoque propuesto: 98.41% de precisión en 15 etiquetas y 95.74% de precisión en 64 etiquetas, lo que representa mejoras del 2.71% y 4%, respectivamente, sobre los resultados del modelo CRF. Utilizando características ingenierizadas, nuestro modelo logra mejoras adicionales del 0.2% (15 etiquetas) y 0.48% (64 etiquetas). Los resultados indican que el método propuesto podría ser un enfoque efectivo para el etiquetado POS en otros idiomas morfológicamente ricos.