logo móvil
Contáctanos

Modelos y plataformas de reconocimiento y síntesis de voz para el idioma kazajo

Autores: Karibayeva, Aidana; Karyukin, Vladislav; Abduali, Balzhan; Amirova, Dina

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Modelos y plataformas de reconocimiento y síntesis de voz para el idioma kazajo


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desarrollo
Inteligencia artificial
Reconocimiento de voz
Texto a voz
Idioma kazajo
Modelos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Con el rápido desarrollo de las tecnologías de inteligencia artificial y aprendizaje automático, el reconocimiento automático de voz (ASR) y la conversión de texto a voz (TTS) se han convertido en componentes clave de la transformación digital de la sociedad. El idioma kazajo, como representante de la familia de lenguas turcas, sigue siendo un idioma de bajos recursos con corpora de audio limitados, modelos de lenguaje y sistemas de síntesis de voz de alta calidad. Este estudio proporciona un análisis exhaustivo de los modelos existentes de reconocimiento y síntesis de voz, enfatizando su aplicabilidad y adaptación al idioma kazajo. Se presta especial atención a las barreras lingüísticas y técnicas, incluyendo la estructura aglutinante, el rico sistema vocálico y la variabilidad fonémica. Se evaluaron tanto soluciones de código abierto como comerciales, incluyendo Whisper, GPT-4 Transcribe, ElevenLabs, OpenAI TTS, Voiser, KazakhTTS2 y TurkicTTS. Los sistemas de reconocimiento de voz se evaluaron utilizando BLEU, WER, TER, chrF y COMET, mientras que la síntesis de voz se evaluó con MCD, PESQ, STOI y DNSMOS, cubriendo así tanto características léxico-semánticas como acústico-perceptuales. Los resultados demuestran que, para la conversión de voz a texto (STT), el mejor rendimiento fue logrado por Soyle en datos específicos del dominio (BLEU 74.93, WER 18.61), mientras que Voiser mostró una precisión equilibrada (WER 40.65-37.11, chrF 80.88-84.51) y GPT-4 Transcribe logró una robusta preservación semántica (COMET hasta 1.02). En contraste, Whisper tuvo el peor desempeño (WER 77.10, BLEU 13.22), requiriendo una mayor adaptación para el kazajo. Para la conversión de texto a voz (TTS), KazakhTTS2 ofreció la calidad perceptual más natural (DNSMOS 8.79-8.96), mientras que OpenAI TTS logró la mejor precisión espectral (MCD 123.44-117.11, PESQ 1.14). TurkicTTS ofreció una inteligibilidad confiable (STOI 0.15, PESQ 1.16), y ElevenLabs produjo un habla natural pero menos precisa espectralmente.

Otros recursos que podrían interesarte

Temas Virtualpro