logo móvil
Contáctanos

La utilidad de los datos de habla imperfecta para el desarrollo de ASR en lenguas de bajos recursos

Autores: Badenhorst, Jaco; de Wet, Febe

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

La utilidad de los datos de habla imperfecta para el desarrollo de ASR en lenguas de bajos recursos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Centro nacional
Tecnología del lenguaje humano
Corpus de voz
Sudáfrica
Modelado acústico
Aumento de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Cuando se lanzó el corpus de voz del Centro Nacional de Tecnología del Lenguaje Humano (NCHLT), se crearon diversas oportunidades para el desarrollo de tecnología de voz en los 11 idiomas oficiales, pero críticamente subfinanciados, de Sudáfrica. Desde entonces, las mejoras sustanciales en el modelado acústico que las arquitecturas profundas lograron para los idiomas bien financiados dieron paso a un nuevo requisito de datos: su desarrollo requiere cientos de horas de habla. Por lo tanto, se requiere una estrategia adecuada para la ampliación de recursos de habla para los idiomas sudafricanos. La primera posibilidad fue buscar datos que ya se habían recopilado pero que no se habían incluido en un corpus existente. Se recopilaron datos adicionales durante el proyecto NCHLT que no se incluyeron en el corpus oficial: solo contiene un subconjunto curado, pero limitado, de los datos. En este documento, primero analizamos los recursos adicionales que podrían cosecharse de los datos auxiliares de NCHLT. También medimos el efecto de estos datos en el modelado acústico. El análisis incorpora redes neuronales de tiempo de retardo factorizadas recientes (TDNN-F). Estos modelos reducen significativamente las tasas de error de fonemas para todos los idiomas. Además, los experimentos de aumento de datos y validación cruzada de corpus para varios de los conjuntos de datos ilustran la utilidad de los datos auxiliares de NCHLT.

Otros recursos que podrían interesarte

Temas Virtualpro