M2ASR-KIRGHIZ: Una base de datos de habla kirguisa gratuita y líneas base acompañadas
Autores: Mamtimin, Ikram; Du, Wenqiang; Hamdulla, Askar
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
M2ASR-KIRGHIZ: Una base de datos de habla kirguisa gratuita y líneas base acompañadas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje profundo
Reconocimiento automático de voz
Base de datos de habla kirguisa
Lenguas minoritarias
Recursos de datos
Tecnologías de RAV
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El aprendizaje profundo ha mejorado significativamente el rendimiento del reconocimiento automático de voz (ASR) con la cooperación de grandes cantidades de recursos de datos. Sin embargo, para las lenguas minoritarias, casi no hay recursos de datos a gran escala, lo que limita el desarrollo de tecnologías ASR en estas lenguas. En este artículo, publicamos una base de datos de voz kirguisa gratuita acompañada de recursos lingüísticos asociados. La base de datos completa involucra 128 horas de datos de voz de 163 hablantes y transcripciones correspondientes. Hasta donde sabemos, esta es la base de datos de voz kirguisa más grande dedicada a la tarea de ASR y es públicamente gratuita hasta ahora. Además, también proporcionamos varios sistemas de referencia basados en Kaldi y WeNet para demostrar cómo se pueden utilizar estos recursos de datos públicos para facilitar la investigación de ASR en kirguís. Esta publicación es parte del proyecto M2ASR, y todos los recursos se pueden descargar en la página web del proyecto.
Descripción
El aprendizaje profundo ha mejorado significativamente el rendimiento del reconocimiento automático de voz (ASR) con la cooperación de grandes cantidades de recursos de datos. Sin embargo, para las lenguas minoritarias, casi no hay recursos de datos a gran escala, lo que limita el desarrollo de tecnologías ASR en estas lenguas. En este artículo, publicamos una base de datos de voz kirguisa gratuita acompañada de recursos lingüísticos asociados. La base de datos completa involucra 128 horas de datos de voz de 163 hablantes y transcripciones correspondientes. Hasta donde sabemos, esta es la base de datos de voz kirguisa más grande dedicada a la tarea de ASR y es públicamente gratuita hasta ahora. Además, también proporcionamos varios sistemas de referencia basados en Kaldi y WeNet para demostrar cómo se pueden utilizar estos recursos de datos públicos para facilitar la investigación de ASR en kirguís. Esta publicación es parte del proyecto M2ASR, y todos los recursos se pueden descargar en la página web del proyecto.