logo móvil
Contáctanos

Segmentación y tokenización conscientes de la morfología para lenguas turcas: un marco guiado por CSE (el caso del kazajo)

Autores: Tukeyev, Ualsher; Rysbek, Bekarys

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Segmentación y tokenización conscientes de la morfología para lenguas turcas: un marco guiado por CSE (el caso del kazajo)


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desafíos
Lenguas con pocos recursos
Tecnología de generación de conjuntos de datos
Modelo morfológico CSE
Lenguas túrquicas
Segmentación de modelos neuronales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El principal desafío de los idiomas con pocos recursos, a saber, la falta de conjuntos de datos suficientemente grandes e informados lingüísticamente para entrenar modelos neuronales, se aborda en este documento mediante el desarrollo de una tecnología de generación de conjuntos de datos basada en un modelo morfológico de Conjunto Completo de Terminaciones (CSE) para los idiomas turcos. Basándonos en esta tecnología, proponemos un Marco Guiado por CSE para la tokenización estadística consciente de la morfología y la segmentación de modelos neuronales, tomando el kazajo como estudio de caso. Aplicar el enfoque guiado por CSE propuesto para adaptar tokenizadores bien conocidos para el kazajo conduce a reducciones medibles en el tiempo de entrenamiento del modelo neuronal (hasta aproximadamente un 33%) en nuestro entorno experimental, principalmente debido a la menor longitud de las oraciones tokenizadas. Además, ampliamos la arquitectura SOTA FEMSeg-CRF incorporando reglas de armonía de vocales y consonantes del kazajo en la etapa de generación de incrustaciones. Dentro del marco propuesto, el entrenamiento en un corpus de formas de palabras generadas por CSE da como resultado el modelo FEMSeg_kaz_v2, que se evalúa utilizando métricas de segmentación intrínseca. El entrenamiento en un corpus de oraciones segmentadas por CSE produce FEMSeg_kaz_v3, que se evalúa además utilizando evaluaciones intrínsecas, extrínsecas y externas en un conjunto de datos de referencia preparado manualmente. El documento presenta un marco guiado por CSE para la tokenización y segmentación conscientes de la morfología para los idiomas turcos, respaldado por la construcción de corpus, extensiones de modelos y evaluación a múltiples niveles. El Marco Guiado por CSE propuesto puede adaptarse potencialmente a otros idiomas turcos.

Otros recursos que podrían interesarte

Temas Virtualpro