Mascarilla de parches de sal y pimienta espectral para el aprendizaje de representaciones de voz auto-supervisado
Autores: Kim, June-Woo; Chung, Hoon; Jung, Ho-Young
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mascarilla de parches de sal y pimienta espectral para el aprendizaje de representaciones de voz auto-supervisado
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Redes neuronales transformadoras
Reconocimiento de voz
Aprendizaje auto-supervisado
Máscara de sal y pimienta
Preentrenamiento
Tareas posteriores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Los sistemas avanzados recientes en el dominio del reconocimiento de voz utilizan grandes redes neuronales Transformador que han sido preentrenadas en datos masivos de voz. Los métodos generales en el área del aprendizaje profundo han sido compartidos con frecuencia en varios dominios, y el modelo Transformador también puede ser utilizado de manera efectiva en voz e imagen. En este documento, presentamos un nuevo método de enmascaramiento para el aprendizaje de representaciones de voz auto-supervisado con máscara de sal y pimienta (S&P) que comúnmente se utiliza en visión por computadora. El esquema propuesto incluye parches S&P en forma de cuadrilátero consecutivos que contaminan aleatoriamente el espectro de voz de entrada. Además, modificamos la máscara estándar S&P para hacerla apropiada para el dominio de voz. Con el fin de validar el efecto del enmascaramiento de parches S&P espectrales propuesto para el enfoque de aprendizaje de representación auto-supervisado, realizamos experimentos de preentrenamiento y experimentos posteriores con dos idiomas, inglés y coreano. Para ello, preentrenamos el modelo de representación de voz utilizando cada conjunto de datos y evaluamos los modelos preentrenados para la extracción de características y el rendimiento de ajuste fino en diversas tareas posteriores, respectivamente. Los resultados experimentales ilustran claramente que el enmascaramiento de parches S&P espectrales propuesto es efectivo para varias tareas posteriores cuando se combina con los métodos de enmascaramiento convencionales.
Descripción
Los sistemas avanzados recientes en el dominio del reconocimiento de voz utilizan grandes redes neuronales Transformador que han sido preentrenadas en datos masivos de voz. Los métodos generales en el área del aprendizaje profundo han sido compartidos con frecuencia en varios dominios, y el modelo Transformador también puede ser utilizado de manera efectiva en voz e imagen. En este documento, presentamos un nuevo método de enmascaramiento para el aprendizaje de representaciones de voz auto-supervisado con máscara de sal y pimienta (S&P) que comúnmente se utiliza en visión por computadora. El esquema propuesto incluye parches S&P en forma de cuadrilátero consecutivos que contaminan aleatoriamente el espectro de voz de entrada. Además, modificamos la máscara estándar S&P para hacerla apropiada para el dominio de voz. Con el fin de validar el efecto del enmascaramiento de parches S&P espectrales propuesto para el enfoque de aprendizaje de representación auto-supervisado, realizamos experimentos de preentrenamiento y experimentos posteriores con dos idiomas, inglés y coreano. Para ello, preentrenamos el modelo de representación de voz utilizando cada conjunto de datos y evaluamos los modelos preentrenados para la extracción de características y el rendimiento de ajuste fino en diversas tareas posteriores, respectivamente. Los resultados experimentales ilustran claramente que el enmascaramiento de parches S&P espectrales propuesto es efectivo para varias tareas posteriores cuando se combina con los métodos de enmascaramiento convencionales.