Una clasificación de texto corto en uyghur y kazajo basada en una secuencia de morfemas robusta y una red neuronal convolucional

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Una clasificación de texto corto en uyghur y kazajo basada en una secuencia de morfemas robusta y una red neuronal convolucional

Autores: Parhat, Sardar; Ablimit, Mijit; Hamdulla, Askar

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Una clasificación de texto corto en uyghur y kazajo basada en una secuencia de morfemas robusta y una red neuronal convolucional

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Basado en el analizador morfológico multilingüe

Lenguas de bajos recursos

Uigur y kazajo

Clasificación de texto

Herramienta de segmentación de morfemas

Red neuronal convolucional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En este artículo, basado en el analizador morfológico multilingüe, investigamos la clasificación de textos cortos en lenguas de bajos recursos similares, como el uigur y el kazajo. En general, los recursos lingüísticos en línea de estos idiomas son ruidosos. Por lo tanto, es necesario un preprocesamiento que puede mejorar significativamente la precisión. El uigur y el kazajo son lenguas con morfología derivacional, en las que las palabras se forman a partir de raíces concatenadas con sufijos. Normalmente, se utilizan términos como representación del contenido del texto, excluyendo las partes funcionales como las palabras vacías en estos idiomas. Al extraer raíces, podemos recopilar los términos necesarios y excluir las palabras vacías. La herramienta de segmentación de morfemas puede dividir el texto en morfemas con una alta fiabilidad del 95%. Después de preparar tanto los corpus de texto de entrenamiento basados en palabras como en morfemas, aplicamos una red neuronal convolucional (CNN) como algoritmo de selección de características y clasificación de textos para realizar tareas de clasificación de textos. Los resultados experimentales muestran que el enfoque basado en morfemas superó al enfoque basado en palabras. La técnica de incrustación de palabras se utiliza con frecuencia en la representación de textos, tanto en el marco de redes neuronales como en la expresión de valores, y puede mapear unidades lingüísticas en un espacio vectorial secuencial basado en el contexto, siendo una forma natural de extraer y predecir palabras fuera del vocabulario (OOV) a partir de la información contextual. El análisis morfológico multilingüe ha proporcionado una forma conveniente para procesar tareas de lenguas de bajos recursos como el uigur y el kazajo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro