Una clasificación de texto corto en uyghur y kazajo basada en una secuencia de morfemas robusta y una red neuronal convolucional
Autores: Parhat, Sardar; Ablimit, Mijit; Hamdulla, Askar
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Una clasificación de texto corto en uyghur y kazajo basada en una secuencia de morfemas robusta y una red neuronal convolucional
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Basado en el analizador morfológico multilingüe
Lenguas de bajos recursos
Uigur y kazajo
Clasificación de texto
Herramienta de segmentación de morfemas
Red neuronal convolucional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En este artículo, basado en el analizador morfológico multilingüe, investigamos la clasificación de textos cortos en lenguas de bajos recursos similares, como el uigur y el kazajo. En general, los recursos lingüísticos en línea de estos idiomas son ruidosos. Por lo tanto, es necesario un preprocesamiento que puede mejorar significativamente la precisión. El uigur y el kazajo son lenguas con morfología derivacional, en las que las palabras se forman a partir de raíces concatenadas con sufijos. Normalmente, se utilizan términos como representación del contenido del texto, excluyendo las partes funcionales como las palabras vacías en estos idiomas. Al extraer raíces, podemos recopilar los términos necesarios y excluir las palabras vacías. La herramienta de segmentación de morfemas puede dividir el texto en morfemas con una alta fiabilidad del 95%. Después de preparar tanto los corpus de texto de entrenamiento basados en palabras como en morfemas, aplicamos una red neuronal convolucional (CNN) como algoritmo de selección de características y clasificación de textos para realizar tareas de clasificación de textos. Los resultados experimentales muestran que el enfoque basado en morfemas superó al enfoque basado en palabras. La técnica de incrustación de palabras se utiliza con frecuencia en la representación de textos, tanto en el marco de redes neuronales como en la expresión de valores, y puede mapear unidades lingüísticas en un espacio vectorial secuencial basado en el contexto, siendo una forma natural de extraer y predecir palabras fuera del vocabulario (OOV) a partir de la información contextual. El análisis morfológico multilingüe ha proporcionado una forma conveniente para procesar tareas de lenguas de bajos recursos como el uigur y el kazajo.
Descripción
En este artículo, basado en el analizador morfológico multilingüe, investigamos la clasificación de textos cortos en lenguas de bajos recursos similares, como el uigur y el kazajo. En general, los recursos lingüísticos en línea de estos idiomas son ruidosos. Por lo tanto, es necesario un preprocesamiento que puede mejorar significativamente la precisión. El uigur y el kazajo son lenguas con morfología derivacional, en las que las palabras se forman a partir de raíces concatenadas con sufijos. Normalmente, se utilizan términos como representación del contenido del texto, excluyendo las partes funcionales como las palabras vacías en estos idiomas. Al extraer raíces, podemos recopilar los términos necesarios y excluir las palabras vacías. La herramienta de segmentación de morfemas puede dividir el texto en morfemas con una alta fiabilidad del 95%. Después de preparar tanto los corpus de texto de entrenamiento basados en palabras como en morfemas, aplicamos una red neuronal convolucional (CNN) como algoritmo de selección de características y clasificación de textos para realizar tareas de clasificación de textos. Los resultados experimentales muestran que el enfoque basado en morfemas superó al enfoque basado en palabras. La técnica de incrustación de palabras se utiliza con frecuencia en la representación de textos, tanto en el marco de redes neuronales como en la expresión de valores, y puede mapear unidades lingüísticas en un espacio vectorial secuencial basado en el contexto, siendo una forma natural de extraer y predecir palabras fuera del vocabulario (OOV) a partir de la información contextual. El análisis morfológico multilingüe ha proporcionado una forma conveniente para procesar tareas de lenguas de bajos recursos como el uigur y el kazajo.