Aprendizaje de representaciones no supervisado con enmascaramiento de características agnóstico a la tarea para un reconocimiento de voz de extremo a extremo robusto
Autores: Kim, June-Woo; Chung, Hoon; Jung, Ho-Young
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Aprendizaje de representaciones no supervisado con enmascaramiento de características agnóstico a la tarea para un reconocimiento de voz de extremo a extremo robusto
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje no supervisado
Representaciones vectoriales del habla
Modelos SVR
Reconocimiento automático del habla
Enmascaramiento de ruido
Espectrograma
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Los enfoques de aprendizaje no supervisado para el entrenamiento de representaciones vectoriales del habla (SVR, por sus siglas en inglés) han sido ampliamente aplicados recientemente. Mientras que los modelos SVR pre-entrenados sobresalen en tareas de reconocimiento automático del habla (ASR, por sus siglas en inglés) relativamente limpias, como las grabadas en entornos de laboratorio, siguen siendo insuficientes para aplicaciones prácticas con diversos tipos de ruido, entonaciones y dialectos. Para hacer frente a este problema, presentamos un nuevo método de aprendizaje SVR no supervisado para modelos ASR prácticos de extremo a extremo. Nuestro enfoque implica diseñar un método de enmascaramiento de características del habla para estabilizar el aprendizaje del modelo SVR y mejorar el rendimiento del modelo ASR en una tarea posterior. Al introducir una estrategia de enmascaramiento de ruido en diversas combinaciones de regiones de tiempo y frecuencia del espectrograma, el modelo SVR se convierte en un extractor de representaciones robusto para el modelo ASR en escenarios prácticos. En experimentos de pre-entrenamiento, entrenamos el modelo SVR utilizando aproximadamente 18,000 horas de conjuntos de datos de habla en coreano que incluían hablantes diversos y fueron grabados en entornos con diversas cantidades de ruido. Luego se congelan los pesos del extractor SVR pre-entrenado, y las representaciones de habla extraídas se utilizan para el entrenamiento del modelo ASR en una tarea posterior. Los resultados experimentales muestran que el modelo ASR que utiliza nuestro extractor SVR propuesto supera significativamente a los métodos convencionales.
Descripción
Los enfoques de aprendizaje no supervisado para el entrenamiento de representaciones vectoriales del habla (SVR, por sus siglas en inglés) han sido ampliamente aplicados recientemente. Mientras que los modelos SVR pre-entrenados sobresalen en tareas de reconocimiento automático del habla (ASR, por sus siglas en inglés) relativamente limpias, como las grabadas en entornos de laboratorio, siguen siendo insuficientes para aplicaciones prácticas con diversos tipos de ruido, entonaciones y dialectos. Para hacer frente a este problema, presentamos un nuevo método de aprendizaje SVR no supervisado para modelos ASR prácticos de extremo a extremo. Nuestro enfoque implica diseñar un método de enmascaramiento de características del habla para estabilizar el aprendizaje del modelo SVR y mejorar el rendimiento del modelo ASR en una tarea posterior. Al introducir una estrategia de enmascaramiento de ruido en diversas combinaciones de regiones de tiempo y frecuencia del espectrograma, el modelo SVR se convierte en un extractor de representaciones robusto para el modelo ASR en escenarios prácticos. En experimentos de pre-entrenamiento, entrenamos el modelo SVR utilizando aproximadamente 18,000 horas de conjuntos de datos de habla en coreano que incluían hablantes diversos y fueron grabados en entornos con diversas cantidades de ruido. Luego se congelan los pesos del extractor SVR pre-entrenado, y las representaciones de habla extraídas se utilizan para el entrenamiento del modelo ASR en una tarea posterior. Los resultados experimentales muestran que el modelo ASR que utiliza nuestro extractor SVR propuesto supera significativamente a los métodos convencionales.