Modelos profundos para el reconocimiento del habla de recursos limitados: caso de Livvi-Karelian
Autores: Kipyatkova, Irina; Kagirov, Ildar
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Modelos profundos para el reconocimiento del habla de recursos limitados: caso de Livvi-Karelian
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Estudios
Procesamiento automático
Idiomas de bajo recurso
Sistema de reconocimiento de voz
Livvi-Karelian
Redes neuronales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Recientemente, ha habido un crecimiento en el número de estudios que abordan el procesamiento automático de idiomas de recursos limitados. La falta de datos de voz y texto dificulta significativamente el desarrollo de tecnologías del habla para dichos idiomas. Este documento presenta un sistema automático de reconocimiento de voz para Livvi-Karelian. Modelos acústicos basados en redes neuronales artificiales con retardos temporales y modelos ocultos de Markov fueron entrenados utilizando un conjunto de datos de voz limitado de 3.5 h. Para aumentar los datos, se emplearon perturbaciones de tono y velocidad del habla, SpecAugment, y sus combinaciones. Se entrenaron modelos de lenguaje basados en 3-gramas y redes neuronales utilizando textos escritos y transcripciones. La métrica de tasa de error de palabra lograda del 22.80% es comparable a otros idiomas de recursos limitados. Hasta donde sabemos, este es el primer sistema de reconocimiento de voz para Livvi-Karelian. Los resultados obtenidos pueden ser de cierta importancia para el desarrollo de sistemas automáticos de reconocimiento de voz no solo para Livvi-Karelian, sino también para otros idiomas de recursos limitados, incluidos los campos de reconocimiento de voz y sistemas de traducción automática. El trabajo futuro incluye experimentos con datos de Karelian utilizando técnicas como el aprendizaje por transferencia y modelos de lenguaje DNN.
Descripción
Recientemente, ha habido un crecimiento en el número de estudios que abordan el procesamiento automático de idiomas de recursos limitados. La falta de datos de voz y texto dificulta significativamente el desarrollo de tecnologías del habla para dichos idiomas. Este documento presenta un sistema automático de reconocimiento de voz para Livvi-Karelian. Modelos acústicos basados en redes neuronales artificiales con retardos temporales y modelos ocultos de Markov fueron entrenados utilizando un conjunto de datos de voz limitado de 3.5 h. Para aumentar los datos, se emplearon perturbaciones de tono y velocidad del habla, SpecAugment, y sus combinaciones. Se entrenaron modelos de lenguaje basados en 3-gramas y redes neuronales utilizando textos escritos y transcripciones. La métrica de tasa de error de palabra lograda del 22.80% es comparable a otros idiomas de recursos limitados. Hasta donde sabemos, este es el primer sistema de reconocimiento de voz para Livvi-Karelian. Los resultados obtenidos pueden ser de cierta importancia para el desarrollo de sistemas automáticos de reconocimiento de voz no solo para Livvi-Karelian, sino también para otros idiomas de recursos limitados, incluidos los campos de reconocimiento de voz y sistemas de traducción automática. El trabajo futuro incluye experimentos con datos de Karelian utilizando técnicas como el aprendizaje por transferencia y modelos de lenguaje DNN.