logo móvil
Contáctanos

Una clasificación de texto corto en uyghur y kazajo basada en una secuencia de morfemas robusta y una red neuronal convolucional

Autores: Parhat, Sardar; Ablimit, Mijit; Hamdulla, Askar

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Una clasificación de texto corto en uyghur y kazajo basada en una secuencia de morfemas robusta y una red neuronal convolucional


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Basado en el analizador morfológico multilingüe
Lenguas de bajos recursos
Uigur y kazajo
Clasificación de texto
Herramienta de segmentación de morfemas
Red neuronal convolucional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En este artículo, basado en el analizador morfológico multilingüe, investigamos la clasificación de textos cortos en lenguas de bajos recursos similares, como el uigur y el kazajo. En general, los recursos lingüísticos en línea de estos idiomas son ruidosos. Por lo tanto, es necesario un preprocesamiento que puede mejorar significativamente la precisión. El uigur y el kazajo son lenguas con morfología derivacional, en las que las palabras se forman a partir de raíces concatenadas con sufijos. Normalmente, se utilizan términos como representación del contenido del texto, excluyendo las partes funcionales como las palabras vacías en estos idiomas. Al extraer raíces, podemos recopilar los términos necesarios y excluir las palabras vacías. La herramienta de segmentación de morfemas puede dividir el texto en morfemas con una alta fiabilidad del 95%. Después de preparar tanto los corpus de texto de entrenamiento basados en palabras como en morfemas, aplicamos una red neuronal convolucional (CNN) como algoritmo de selección de características y clasificación de textos para realizar tareas de clasificación de textos. Los resultados experimentales muestran que el enfoque basado en morfemas superó al enfoque basado en palabras. La técnica de incrustación de palabras se utiliza con frecuencia en la representación de textos, tanto en el marco de redes neuronales como en la expresión de valores, y puede mapear unidades lingüísticas en un espacio vectorial secuencial basado en el contexto, siendo una forma natural de extraer y predecir palabras fuera del vocabulario (OOV) a partir de la información contextual. El análisis morfológico multilingüe ha proporcionado una forma conveniente para procesar tareas de lenguas de bajos recursos como el uigur y el kazajo.

Otros recursos que podrían interesarte

Temas Virtualpro