La utilidad de los datos de habla imperfecta para el desarrollo de ASR en lenguas de bajos recursos
Autores: Badenhorst, Jaco; de Wet, Febe
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
La utilidad de los datos de habla imperfecta para el desarrollo de ASR en lenguas de bajos recursos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Centro nacional
Tecnología del lenguaje humano
Corpus de voz
Sudáfrica
Modelado acústico
Aumento de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Cuando se lanzó el corpus de voz del Centro Nacional de Tecnología del Lenguaje Humano (NCHLT), se crearon diversas oportunidades para el desarrollo de tecnología de voz en los 11 idiomas oficiales, pero críticamente subfinanciados, de Sudáfrica. Desde entonces, las mejoras sustanciales en el modelado acústico que las arquitecturas profundas lograron para los idiomas bien financiados dieron paso a un nuevo requisito de datos: su desarrollo requiere cientos de horas de habla. Por lo tanto, se requiere una estrategia adecuada para la ampliación de recursos de habla para los idiomas sudafricanos. La primera posibilidad fue buscar datos que ya se habían recopilado pero que no se habían incluido en un corpus existente. Se recopilaron datos adicionales durante el proyecto NCHLT que no se incluyeron en el corpus oficial: solo contiene un subconjunto curado, pero limitado, de los datos. En este documento, primero analizamos los recursos adicionales que podrían cosecharse de los datos auxiliares de NCHLT. También medimos el efecto de estos datos en el modelado acústico. El análisis incorpora redes neuronales de tiempo de retardo factorizadas recientes (TDNN-F). Estos modelos reducen significativamente las tasas de error de fonemas para todos los idiomas. Además, los experimentos de aumento de datos y validación cruzada de corpus para varios de los conjuntos de datos ilustran la utilidad de los datos auxiliares de NCHLT.
Descripción
Cuando se lanzó el corpus de voz del Centro Nacional de Tecnología del Lenguaje Humano (NCHLT), se crearon diversas oportunidades para el desarrollo de tecnología de voz en los 11 idiomas oficiales, pero críticamente subfinanciados, de Sudáfrica. Desde entonces, las mejoras sustanciales en el modelado acústico que las arquitecturas profundas lograron para los idiomas bien financiados dieron paso a un nuevo requisito de datos: su desarrollo requiere cientos de horas de habla. Por lo tanto, se requiere una estrategia adecuada para la ampliación de recursos de habla para los idiomas sudafricanos. La primera posibilidad fue buscar datos que ya se habían recopilado pero que no se habían incluido en un corpus existente. Se recopilaron datos adicionales durante el proyecto NCHLT que no se incluyeron en el corpus oficial: solo contiene un subconjunto curado, pero limitado, de los datos. En este documento, primero analizamos los recursos adicionales que podrían cosecharse de los datos auxiliares de NCHLT. También medimos el efecto de estos datos en el modelado acústico. El análisis incorpora redes neuronales de tiempo de retardo factorizadas recientes (TDNN-F). Estos modelos reducen significativamente las tasas de error de fonemas para todos los idiomas. Además, los experimentos de aumento de datos y validación cruzada de corpus para varios de los conjuntos de datos ilustran la utilidad de los datos auxiliares de NCHLT.