logo móvil
Contáctanos

Un algoritmo de stemming basado en cadenas de caracteres para lenguas morfológicamente derivadas

Autores: Imin, Gvzelnur; Ablimit, Mijit; Yilahun, Hankiz; Hamdulla, Askar

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un algoritmo de stemming basado en cadenas de caracteres para lenguas morfológicamente derivadas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Morfología
Derivado
Lenguas
Raíces
Fonético
Modelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los lenguajes morfológicamente derivados forman palabras fusionando raíces y sufijos; las raíces son importantes para ser extraídas con el fin de realizar alineación multilingüe y transferencia de conocimiento. Dado que hay armonía y desarmonía fonética cuando se combinan partículas lingüísticas, es necesario analizar tanto los cambios fonéticos como morfológicos. Este artículo propone un método de stemming multilingüe que aprende automáticamente los cambios morfo-fonéticos basado en incrustaciones basadas en caracteres y modelado secuencial. En primer lugar, se utiliza la incrustación de características de caracteres a nivel de oración como entrada, y se emplea el modelo BiLSTM para obtener la secuencia de contexto hacia adelante y hacia atrás, añadiendo el mecanismo de atención a este modelo para el aprendizaje de pesos, y se extrae la información de características globales para capturar los límites de la raíz y el afijo; finalmente, se utiliza el modelo CRF para aprender más información de las características de la secuencia para describir la información de contexto de manera más efectiva. Con el fin de verificar la efectividad del modelo anterior, se compara el modelo de este artículo con el modelo tradicional en dos conjuntos de datos diferentes de tres lenguas derivadas: uigur, kazajo y kirguís. Los resultados experimentales muestran que el modelo de este artículo tiene el mejor efecto de stemming en conjuntos de datos multilingües a nivel de oración, lo que conduce a un stemming más efectivo. Además, el modelo propuesto supera a otros modelos tradicionales, considerando plenamente las características de los datos y tiene ciertas ventajas con menos intervención humana.

Otros recursos que podrían interesarte

Temas Virtualpro