Segmentación y tokenización conscientes de la morfología para lenguas turcas: un marco guiado por CSE (el caso del kazajo)

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Segmentación y tokenización conscientes de la morfología para lenguas turcas: un marco guiado por CSE (el caso del kazajo)

Autores: Tukeyev, Ualsher; Rysbek, Bekarys

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Segmentación y tokenización conscientes de la morfología para lenguas turcas: un marco guiado por CSE (el caso del kazajo)

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desafíos

Lenguas con pocos recursos

Tecnología de generación de conjuntos de datos

Modelo morfológico CSE

Lenguas túrquicas

Segmentación de modelos neuronales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El principal desafío de los idiomas con pocos recursos, a saber, la falta de conjuntos de datos suficientemente grandes e informados lingüísticamente para entrenar modelos neuronales, se aborda en este documento mediante el desarrollo de una tecnología de generación de conjuntos de datos basada en un modelo morfológico de Conjunto Completo de Terminaciones (CSE) para los idiomas turcos. Basándonos en esta tecnología, proponemos un Marco Guiado por CSE para la tokenización estadística consciente de la morfología y la segmentación de modelos neuronales, tomando el kazajo como estudio de caso. Aplicar el enfoque guiado por CSE propuesto para adaptar tokenizadores bien conocidos para el kazajo conduce a reducciones medibles en el tiempo de entrenamiento del modelo neuronal (hasta aproximadamente un 33%) en nuestro entorno experimental, principalmente debido a la menor longitud de las oraciones tokenizadas. Además, ampliamos la arquitectura SOTA FEMSeg-CRF incorporando reglas de armonía de vocales y consonantes del kazajo en la etapa de generación de incrustaciones. Dentro del marco propuesto, el entrenamiento en un corpus de formas de palabras generadas por CSE da como resultado el modelo FEMSeg_kaz_v2, que se evalúa utilizando métricas de segmentación intrínseca. El entrenamiento en un corpus de oraciones segmentadas por CSE produce FEMSeg_kaz_v3, que se evalúa además utilizando evaluaciones intrínsecas, extrínsecas y externas en un conjunto de datos de referencia preparado manualmente. El documento presenta un marco guiado por CSE para la tokenización y segmentación conscientes de la morfología para los idiomas turcos, respaldado por la construcción de corpus, extensiones de modelos y evaluación a múltiples niveles. El Marco Guiado por CSE propuesto puede adaptarse potencialmente a otros idiomas turcos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro