Reconocimiento de voz multilingüe para lenguas túrquicas
Autores: Mussakhojayeva, Saida; Dauletbek, Kaisar; Yeshpanov, Rustem; Varol, Huseyin Atakan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento de voz multilingüe para lenguas túrquicas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desarrollo de reconocimiento automático de voz multilingüe
Lenguas turcas de recursos limitados
Modelos multilingües
Reducción de la tasa de error de caracteres y palabras
Corpus de voz turco
Conjunto de datos de código abierto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El objetivo principal de este estudio fue contribuir al desarrollo del reconocimiento automático de voz multilingüe para lenguas turcas de recursos limitados. Se consideraron diez lenguas: azerbaiyano, bashkir, chuvash, kazajo, kirguís, sakha, tártaro, turco, uigur y uzbeko. Se desarrollaron un total de 22 modelos (13 monolingües y 9 multilingües). Los modelos multilingües que se entrenaron utilizando datos de voz conjuntos mostraron un rendimiento más robusto que los modelos monolingües de referencia, con el mejor modelo logrando una reducción promedio de la tasa de error de caracteres y palabras del 56.7%/54.3%, respectivamente. Los resultados del experimento mostraron que la reducción de la tasa de error de caracteres y palabras era más probable cuando los modelos multilingües se entrenaban con datos de lenguas turcas relacionadas que cuando se desarrollaban utilizando datos de lenguas no relacionadas y no turcas, como el inglés y el ruso. El estudio también presentó un corpus de habla turca de código abierto. El corpus contiene 218.2 horas de habla transcrita con 186,171 enunciados y es el conjunto de datos turco más grande disponible públicamente de su tipo. Los conjuntos de datos y códigos utilizados para entrenar los modelos están disponibles para su descarga desde nuestra página de GitHub.
Descripción
El objetivo principal de este estudio fue contribuir al desarrollo del reconocimiento automático de voz multilingüe para lenguas turcas de recursos limitados. Se consideraron diez lenguas: azerbaiyano, bashkir, chuvash, kazajo, kirguís, sakha, tártaro, turco, uigur y uzbeko. Se desarrollaron un total de 22 modelos (13 monolingües y 9 multilingües). Los modelos multilingües que se entrenaron utilizando datos de voz conjuntos mostraron un rendimiento más robusto que los modelos monolingües de referencia, con el mejor modelo logrando una reducción promedio de la tasa de error de caracteres y palabras del 56.7%/54.3%, respectivamente. Los resultados del experimento mostraron que la reducción de la tasa de error de caracteres y palabras era más probable cuando los modelos multilingües se entrenaban con datos de lenguas turcas relacionadas que cuando se desarrollaban utilizando datos de lenguas no relacionadas y no turcas, como el inglés y el ruso. El estudio también presentó un corpus de habla turca de código abierto. El corpus contiene 218.2 horas de habla transcrita con 186,171 enunciados y es el conjunto de datos turco más grande disponible públicamente de su tipo. Los conjuntos de datos y códigos utilizados para entrenar los modelos están disponibles para su descarga desde nuestra página de GitHub.