logo móvil
Contáctanos

Red de Memoria a Largo y Corto Plazo Bidireccional con una Capa de Campo Aleatorio Condicional para el Etiquetado de Partes del Discurso en Uigur

Autores: Maimaiti, Maihemuti; Wumaier, Aishan; Abiderexiti, Kahaerjiang; Yibulayin, Tuergen

Idioma: Inglés

Editor: MDPI

Año: 2017

Descargar PDF

Acceso abierto

Artículo científico
2017

Red de Memoria a Largo y Corto Plazo Bidireccional con una Capa de Campo Aleatorio Condicional para el Etiquetado de Partes del Discurso en Uigur


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Lengua aglutinante
Lengua morfológicamente rica
Etiquetado de partes del discurso
Redes LSTM
Modelo CRF
Modelos de redes neuronales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El uigur es un idioma aglutinante y morfológicamente rico; las tareas de procesamiento del lenguaje natural en uigur pueden ser un desafío. La morfología de las palabras es importante en el etiquetado de partes del discurso (POS) en uigur. Sin embargo, el rendimiento del etiquetado POS sufre por la propagación de errores de los analizadores morfológicos. Para abordar este problema, proponemos algunos modelos para el etiquetado POS: campos aleatorios condicionales (CRF), memoria a largo y corto plazo (LSTM), redes LSTM bidireccionales (BI-LSTM), redes LSTM con una capa CRF y redes BI-LSTM con una capa CRF. Estos modelos no dependen de la derivación y la desambiguación de palabras para el uigur y combinan características elaboradas a mano con modelos de redes neuronales. Se logra un rendimiento de vanguardia en el etiquetado POS en uigur en conjuntos de datos de prueba utilizando el enfoque propuesto: 98.41% de precisión en 15 etiquetas y 95.74% de precisión en 64 etiquetas, lo que representa mejoras del 2.71% y 4%, respectivamente, sobre los resultados del modelo CRF. Utilizando características ingenierizadas, nuestro modelo logra mejoras adicionales del 0.2% (15 etiquetas) y 0.48% (64 etiquetas). Los resultados indican que el método propuesto podría ser un enfoque efectivo para el etiquetado POS en otros idiomas morfológicamente ricos.

Otros recursos que podrían interesarte

Temas Virtualpro