Modelos y plataformas de reconocimiento y síntesis de voz para el idioma kazajo
Autores: Karibayeva, Aidana; Karyukin, Vladislav; Abduali, Balzhan; Amirova, Dina
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Modelos y plataformas de reconocimiento y síntesis de voz para el idioma kazajo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desarrollo
Inteligencia artificial
Reconocimiento de voz
Texto a voz
Idioma kazajo
Modelos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Con el rápido desarrollo de las tecnologías de inteligencia artificial y aprendizaje automático, el reconocimiento automático de voz (ASR) y la conversión de texto a voz (TTS) se han convertido en componentes clave de la transformación digital de la sociedad. El idioma kazajo, como representante de la familia de lenguas turcas, sigue siendo un idioma de bajos recursos con corpora de audio limitados, modelos de lenguaje y sistemas de síntesis de voz de alta calidad. Este estudio proporciona un análisis exhaustivo de los modelos existentes de reconocimiento y síntesis de voz, enfatizando su aplicabilidad y adaptación al idioma kazajo. Se presta especial atención a las barreras lingüísticas y técnicas, incluyendo la estructura aglutinante, el rico sistema vocálico y la variabilidad fonémica. Se evaluaron tanto soluciones de código abierto como comerciales, incluyendo Whisper, GPT-4 Transcribe, ElevenLabs, OpenAI TTS, Voiser, KazakhTTS2 y TurkicTTS. Los sistemas de reconocimiento de voz se evaluaron utilizando BLEU, WER, TER, chrF y COMET, mientras que la síntesis de voz se evaluó con MCD, PESQ, STOI y DNSMOS, cubriendo así tanto características léxico-semánticas como acústico-perceptuales. Los resultados demuestran que, para la conversión de voz a texto (STT), el mejor rendimiento fue logrado por Soyle en datos específicos del dominio (BLEU 74.93, WER 18.61), mientras que Voiser mostró una precisión equilibrada (WER 40.65-37.11, chrF 80.88-84.51) y GPT-4 Transcribe logró una robusta preservación semántica (COMET hasta 1.02). En contraste, Whisper tuvo el peor desempeño (WER 77.10, BLEU 13.22), requiriendo una mayor adaptación para el kazajo. Para la conversión de texto a voz (TTS), KazakhTTS2 ofreció la calidad perceptual más natural (DNSMOS 8.79-8.96), mientras que OpenAI TTS logró la mejor precisión espectral (MCD 123.44-117.11, PESQ 1.14). TurkicTTS ofreció una inteligibilidad confiable (STOI 0.15, PESQ 1.16), y ElevenLabs produjo un habla natural pero menos precisa espectralmente.
Descripción
Con el rápido desarrollo de las tecnologías de inteligencia artificial y aprendizaje automático, el reconocimiento automático de voz (ASR) y la conversión de texto a voz (TTS) se han convertido en componentes clave de la transformación digital de la sociedad. El idioma kazajo, como representante de la familia de lenguas turcas, sigue siendo un idioma de bajos recursos con corpora de audio limitados, modelos de lenguaje y sistemas de síntesis de voz de alta calidad. Este estudio proporciona un análisis exhaustivo de los modelos existentes de reconocimiento y síntesis de voz, enfatizando su aplicabilidad y adaptación al idioma kazajo. Se presta especial atención a las barreras lingüísticas y técnicas, incluyendo la estructura aglutinante, el rico sistema vocálico y la variabilidad fonémica. Se evaluaron tanto soluciones de código abierto como comerciales, incluyendo Whisper, GPT-4 Transcribe, ElevenLabs, OpenAI TTS, Voiser, KazakhTTS2 y TurkicTTS. Los sistemas de reconocimiento de voz se evaluaron utilizando BLEU, WER, TER, chrF y COMET, mientras que la síntesis de voz se evaluó con MCD, PESQ, STOI y DNSMOS, cubriendo así tanto características léxico-semánticas como acústico-perceptuales. Los resultados demuestran que, para la conversión de voz a texto (STT), el mejor rendimiento fue logrado por Soyle en datos específicos del dominio (BLEU 74.93, WER 18.61), mientras que Voiser mostró una precisión equilibrada (WER 40.65-37.11, chrF 80.88-84.51) y GPT-4 Transcribe logró una robusta preservación semántica (COMET hasta 1.02). En contraste, Whisper tuvo el peor desempeño (WER 77.10, BLEU 13.22), requiriendo una mayor adaptación para el kazajo. Para la conversión de texto a voz (TTS), KazakhTTS2 ofreció la calidad perceptual más natural (DNSMOS 8.79-8.96), mientras que OpenAI TTS logró la mejor precisión espectral (MCD 123.44-117.11, PESQ 1.14). TurkicTTS ofreció una inteligibilidad confiable (STOI 0.15, PESQ 1.16), y ElevenLabs produjo un habla natural pero menos precisa espectralmente.