Mascarilla de parches de sal y pimienta espectral para el aprendizaje de representaciones de voz auto-supervisado

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mascarilla de parches de sal y pimienta espectral para el aprendizaje de representaciones de voz auto-supervisado

Autores: Kim, June-Woo; Chung, Hoon; Jung, Ho-Young

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Mascarilla de parches de sal y pimienta espectral para el aprendizaje de representaciones de voz auto-supervisado

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Redes neuronales transformadoras

Reconocimiento de voz

Aprendizaje auto-supervisado

Máscara de sal y pimienta

Preentrenamiento

Tareas posteriores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones

Los sistemas avanzados recientes en el dominio del reconocimiento de voz utilizan grandes redes neuronales Transformador que han sido preentrenadas en datos masivos de voz. Los métodos generales en el área del aprendizaje profundo han sido compartidos con frecuencia en varios dominios, y el modelo Transformador también puede ser utilizado de manera efectiva en voz e imagen. En este documento, presentamos un nuevo método de enmascaramiento para el aprendizaje de representaciones de voz auto-supervisado con máscara de sal y pimienta (S&P) que comúnmente se utiliza en visión por computadora. El esquema propuesto incluye parches S&P en forma de cuadrilátero consecutivos que contaminan aleatoriamente el espectro de voz de entrada. Además, modificamos la máscara estándar S&P para hacerla apropiada para el dominio de voz. Con el fin de validar el efecto del enmascaramiento de parches S&P espectrales propuesto para el enfoque de aprendizaje de representación auto-supervisado, realizamos experimentos de preentrenamiento y experimentos posteriores con dos idiomas, inglés y coreano. Para ello, preentrenamos el modelo de representación de voz utilizando cada conjunto de datos y evaluamos los modelos preentrenados para la extracción de características y el rendimiento de ajuste fino en diversas tareas posteriores, respectivamente. Los resultados experimentales ilustran claramente que el enmascaramiento de parches S&P espectrales propuesto es efectivo para varias tareas posteriores cuando se combina con los métodos de enmascaramiento convencionales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro