Crowdsourcing el Corpus de Discurso Paldaruo de galés para la Tecnología del Habla
Autores: Cooper, Sarah; Jones, Dewi Bryn; Prys, Delyth
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Crowdsourcing el Corpus de Discurso Paldaruo de galés para la Tecnología del Habla
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Datos de voz
Lengua de bajos recursos
Corpus de Voz Paldaruo
Galés
Financiación colectiva
Tecnología del habla
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Recoger datos de voz para un idioma de bajos recursos es un desafío cuando la financiación y los recursos son limitados. Este artículo describe el proceso de diseño, creación y uso del Corpus de Voz Paldaruo para el desarrollo de tecnología de voz para el galés. Específicamente, este artículo se centra en la obtención de datos mediante una aplicación en teléfonos inteligentes y dispositivos móviles, permitiendo que hablantes de todo Gales contribuyan. Discutimos el desarrollo de indicaciones de lectura: palabras aisladas y oraciones completas, así como los metadatos recopilados de los contribuyentes. También proporcionamos información sobre el diseño de la Aplicación Paldaruo, así como los principales usos del corpus y su disponibilidad y licencias. El corpus fue diseñado para el desarrollo del reconocimiento de voz para el galés y se ha utilizado para crear varios otros recursos. Estos métodos pueden extenderse a otros idiomas, y se discuten sugerencias para otros idiomas de bajos recursos.
Descripción
Recoger datos de voz para un idioma de bajos recursos es un desafío cuando la financiación y los recursos son limitados. Este artículo describe el proceso de diseño, creación y uso del Corpus de Voz Paldaruo para el desarrollo de tecnología de voz para el galés. Específicamente, este artículo se centra en la obtención de datos mediante una aplicación en teléfonos inteligentes y dispositivos móviles, permitiendo que hablantes de todo Gales contribuyan. Discutimos el desarrollo de indicaciones de lectura: palabras aisladas y oraciones completas, así como los metadatos recopilados de los contribuyentes. También proporcionamos información sobre el diseño de la Aplicación Paldaruo, así como los principales usos del corpus y su disponibilidad y licencias. El corpus fue diseñado para el desarrollo del reconocimiento de voz para el galés y se ha utilizado para crear varios otros recursos. Estos métodos pueden extenderse a otros idiomas, y se discuten sugerencias para otros idiomas de bajos recursos.