Modelos y plataformas de reconocimiento y síntesis de voz para el idioma kazajo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Modelos y plataformas de reconocimiento y síntesis de voz para el idioma kazajo

Autores: Karibayeva, Aidana; Karyukin, Vladislav; Abduali, Balzhan; Amirova, Dina

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Modelos y plataformas de reconocimiento y síntesis de voz para el idioma kazajo

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desarrollo

Inteligencia artificial

Reconocimiento de voz

Texto a voz

Idioma kazajo

Modelos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Con el rápido desarrollo de las tecnologías de inteligencia artificial y aprendizaje automático, el reconocimiento automático de voz (ASR) y la conversión de texto a voz (TTS) se han convertido en componentes clave de la transformación digital de la sociedad. El idioma kazajo, como representante de la familia de lenguas turcas, sigue siendo un idioma de bajos recursos con corpora de audio limitados, modelos de lenguaje y sistemas de síntesis de voz de alta calidad. Este estudio proporciona un análisis exhaustivo de los modelos existentes de reconocimiento y síntesis de voz, enfatizando su aplicabilidad y adaptación al idioma kazajo. Se presta especial atención a las barreras lingüísticas y técnicas, incluyendo la estructura aglutinante, el rico sistema vocálico y la variabilidad fonémica. Se evaluaron tanto soluciones de código abierto como comerciales, incluyendo Whisper, GPT-4 Transcribe, ElevenLabs, OpenAI TTS, Voiser, KazakhTTS2 y TurkicTTS. Los sistemas de reconocimiento de voz se evaluaron utilizando BLEU, WER, TER, chrF y COMET, mientras que la síntesis de voz se evaluó con MCD, PESQ, STOI y DNSMOS, cubriendo así tanto características léxico-semánticas como acústico-perceptuales. Los resultados demuestran que, para la conversión de voz a texto (STT), el mejor rendimiento fue logrado por Soyle en datos específicos del dominio (BLEU 74.93, WER 18.61), mientras que Voiser mostró una precisión equilibrada (WER 40.65-37.11, chrF 80.88-84.51) y GPT-4 Transcribe logró una robusta preservación semántica (COMET hasta 1.02). En contraste, Whisper tuvo el peor desempeño (WER 77.10, BLEU 13.22), requiriendo una mayor adaptación para el kazajo. Para la conversión de texto a voz (TTS), KazakhTTS2 ofreció la calidad perceptual más natural (DNSMOS 8.79-8.96), mientras que OpenAI TTS logró la mejor precisión espectral (MCD 123.44-117.11, PESQ 1.14). TurkicTTS ofreció una inteligibilidad confiable (STOI 0.15, PESQ 1.16), y ElevenLabs produjo un habla natural pero menos precisa espectralmente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro