Un algoritmo de stemming basado en cadenas de caracteres para lenguas morfológicamente derivadas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un algoritmo de stemming basado en cadenas de caracteres para lenguas morfológicamente derivadas

Autores: Imin, Gvzelnur; Ablimit, Mijit; Yilahun, Hankiz; Hamdulla, Askar

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Un algoritmo de stemming basado en cadenas de caracteres para lenguas morfológicamente derivadas

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Morfología

Derivado

Lenguas

Raíces

Fonético

Modelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los lenguajes morfológicamente derivados forman palabras fusionando raíces y sufijos; las raíces son importantes para ser extraídas con el fin de realizar alineación multilingüe y transferencia de conocimiento. Dado que hay armonía y desarmonía fonética cuando se combinan partículas lingüísticas, es necesario analizar tanto los cambios fonéticos como morfológicos. Este artículo propone un método de stemming multilingüe que aprende automáticamente los cambios morfo-fonéticos basado en incrustaciones basadas en caracteres y modelado secuencial. En primer lugar, se utiliza la incrustación de características de caracteres a nivel de oración como entrada, y se emplea el modelo BiLSTM para obtener la secuencia de contexto hacia adelante y hacia atrás, añadiendo el mecanismo de atención a este modelo para el aprendizaje de pesos, y se extrae la información de características globales para capturar los límites de la raíz y el afijo; finalmente, se utiliza el modelo CRF para aprender más información de las características de la secuencia para describir la información de contexto de manera más efectiva. Con el fin de verificar la efectividad del modelo anterior, se compara el modelo de este artículo con el modelo tradicional en dos conjuntos de datos diferentes de tres lenguas derivadas: uigur, kazajo y kirguís. Los resultados experimentales muestran que el modelo de este artículo tiene el mejor efecto de stemming en conjuntos de datos multilingües a nivel de oración, lo que conduce a un stemming más efectivo. Además, el modelo propuesto supera a otros modelos tradicionales, considerando plenamente las características de los datos y tiene ciertas ventajas con menos intervención humana.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro