logo móvil
Contáctanos

Mascarilla de parches de sal y pimienta espectral para el aprendizaje de representaciones de voz auto-supervisado

Autores: Kim, June-Woo; Chung, Hoon; Jung, Ho-Young

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Mascarilla de parches de sal y pimienta espectral para el aprendizaje de representaciones de voz auto-supervisado


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Redes neuronales transformadoras
Reconocimiento de voz
Aprendizaje auto-supervisado
Máscara de sal y pimienta
Preentrenamiento
Tareas posteriores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
Los sistemas avanzados recientes en el dominio del reconocimiento de voz utilizan grandes redes neuronales Transformador que han sido preentrenadas en datos masivos de voz. Los métodos generales en el área del aprendizaje profundo han sido compartidos con frecuencia en varios dominios, y el modelo Transformador también puede ser utilizado de manera efectiva en voz e imagen. En este documento, presentamos un nuevo método de enmascaramiento para el aprendizaje de representaciones de voz auto-supervisado con máscara de sal y pimienta (S&P) que comúnmente se utiliza en visión por computadora. El esquema propuesto incluye parches S&P en forma de cuadrilátero consecutivos que contaminan aleatoriamente el espectro de voz de entrada. Además, modificamos la máscara estándar S&P para hacerla apropiada para el dominio de voz. Con el fin de validar el efecto del enmascaramiento de parches S&P espectrales propuesto para el enfoque de aprendizaje de representación auto-supervisado, realizamos experimentos de preentrenamiento y experimentos posteriores con dos idiomas, inglés y coreano. Para ello, preentrenamos el modelo de representación de voz utilizando cada conjunto de datos y evaluamos los modelos preentrenados para la extracción de características y el rendimiento de ajuste fino en diversas tareas posteriores, respectivamente. Los resultados experimentales ilustran claramente que el enmascaramiento de parches S&P espectrales propuesto es efectivo para varias tareas posteriores cuando se combina con los métodos de enmascaramiento convencionales.

Otros recursos que podrían interesarte

Temas Virtualpro