Un algoritmo de stemming basado en cadenas de caracteres para lenguas morfológicamente derivadas
Autores: Imin, Gvzelnur; Ablimit, Mijit; Yilahun, Hankiz; Hamdulla, Askar
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un algoritmo de stemming basado en cadenas de caracteres para lenguas morfológicamente derivadas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Morfología
Derivado
Lenguas
Raíces
Fonético
Modelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los lenguajes morfológicamente derivados forman palabras fusionando raíces y sufijos; las raíces son importantes para ser extraídas con el fin de realizar alineación multilingüe y transferencia de conocimiento. Dado que hay armonía y desarmonía fonética cuando se combinan partículas lingüísticas, es necesario analizar tanto los cambios fonéticos como morfológicos. Este artículo propone un método de stemming multilingüe que aprende automáticamente los cambios morfo-fonéticos basado en incrustaciones basadas en caracteres y modelado secuencial. En primer lugar, se utiliza la incrustación de características de caracteres a nivel de oración como entrada, y se emplea el modelo BiLSTM para obtener la secuencia de contexto hacia adelante y hacia atrás, añadiendo el mecanismo de atención a este modelo para el aprendizaje de pesos, y se extrae la información de características globales para capturar los límites de la raíz y el afijo; finalmente, se utiliza el modelo CRF para aprender más información de las características de la secuencia para describir la información de contexto de manera más efectiva. Con el fin de verificar la efectividad del modelo anterior, se compara el modelo de este artículo con el modelo tradicional en dos conjuntos de datos diferentes de tres lenguas derivadas: uigur, kazajo y kirguís. Los resultados experimentales muestran que el modelo de este artículo tiene el mejor efecto de stemming en conjuntos de datos multilingües a nivel de oración, lo que conduce a un stemming más efectivo. Además, el modelo propuesto supera a otros modelos tradicionales, considerando plenamente las características de los datos y tiene ciertas ventajas con menos intervención humana.
Descripción
Los lenguajes morfológicamente derivados forman palabras fusionando raíces y sufijos; las raíces son importantes para ser extraídas con el fin de realizar alineación multilingüe y transferencia de conocimiento. Dado que hay armonía y desarmonía fonética cuando se combinan partículas lingüísticas, es necesario analizar tanto los cambios fonéticos como morfológicos. Este artículo propone un método de stemming multilingüe que aprende automáticamente los cambios morfo-fonéticos basado en incrustaciones basadas en caracteres y modelado secuencial. En primer lugar, se utiliza la incrustación de características de caracteres a nivel de oración como entrada, y se emplea el modelo BiLSTM para obtener la secuencia de contexto hacia adelante y hacia atrás, añadiendo el mecanismo de atención a este modelo para el aprendizaje de pesos, y se extrae la información de características globales para capturar los límites de la raíz y el afijo; finalmente, se utiliza el modelo CRF para aprender más información de las características de la secuencia para describir la información de contexto de manera más efectiva. Con el fin de verificar la efectividad del modelo anterior, se compara el modelo de este artículo con el modelo tradicional en dos conjuntos de datos diferentes de tres lenguas derivadas: uigur, kazajo y kirguís. Los resultados experimentales muestran que el modelo de este artículo tiene el mejor efecto de stemming en conjuntos de datos multilingües a nivel de oración, lo que conduce a un stemming más efectivo. Además, el modelo propuesto supera a otros modelos tradicionales, considerando plenamente las características de los datos y tiene ciertas ventajas con menos intervención humana.