Redes Generativas Adversarias Mejoradas con Autoatención de Peso Ligero para Mejora del Habla
Autores: Li, Lujun; Lu, Zhenxing; Watzel, Tobias; Kürzinger, Ludwig; Rigoll, Gerhard
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Redes Generativas Adversarias Mejoradas con Autoatención de Peso Ligero para Mejora del Habla
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes generativas adversarias
Mejora del habla
Mecanismo de autoatención
Redes neuronales convolucionales
Redes neuronales recurrentes
Dependencias a largo plazo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Las redes generativas adversarias (GANs) han demostrado su superioridad para la mejora del habla. Sin embargo, la mayoría de los intentos anteriores tenían capas convolucionales como base, lo que puede oscurecer las dependencias a largo plazo a lo largo de una secuencia de entrada debido al campo receptivo local del operador de convolución. Una solución popular es sustituir las redes neuronales recurrentes (RNNs) por las redes neuronales convolucionales, pero las RNNs son computacionalmente ineficientes, causadas por la falta de paralelización de sus iteraciones temporales. Para evitar esta limitación, proponemos un sistema de extremo a extremo para la mejora del habla aplicando el mecanismo de autoatención a las GANs. Nuestro objetivo es lograr un sistema que sea flexible en la modelización de interacciones tanto a largo plazo como locales y que al mismo tiempo sea computacionalmente eficiente. Nuestro trabajo se implementa en tres fases: en primer lugar, aplicamos la capa de autoatención independiente en las GANs de mejora del habla. En segundo lugar, empleamos la modelización de la localidad en la capa de autoatención independiente. Por último, investigamos la funcionalidad de las GANs de mejora del habla convolucionales aumentadas con autoatención. Los resultados experimentales sistemáticos indican que equipado con la capa de autoatención independiente, el sistema supera a los sistemas de referencia en cuanto a los criterios de evaluación clásicos con hasta un 95% menos de parámetros. Además, la modelización de la localidad puede ser un enfoque sin parámetros para una mayor mejora del rendimiento, y la autoatención también supera a todos los sistemas de referencia con un aumento aceptable de parámetros.
Descripción
Las redes generativas adversarias (GANs) han demostrado su superioridad para la mejora del habla. Sin embargo, la mayoría de los intentos anteriores tenían capas convolucionales como base, lo que puede oscurecer las dependencias a largo plazo a lo largo de una secuencia de entrada debido al campo receptivo local del operador de convolución. Una solución popular es sustituir las redes neuronales recurrentes (RNNs) por las redes neuronales convolucionales, pero las RNNs son computacionalmente ineficientes, causadas por la falta de paralelización de sus iteraciones temporales. Para evitar esta limitación, proponemos un sistema de extremo a extremo para la mejora del habla aplicando el mecanismo de autoatención a las GANs. Nuestro objetivo es lograr un sistema que sea flexible en la modelización de interacciones tanto a largo plazo como locales y que al mismo tiempo sea computacionalmente eficiente. Nuestro trabajo se implementa en tres fases: en primer lugar, aplicamos la capa de autoatención independiente en las GANs de mejora del habla. En segundo lugar, empleamos la modelización de la localidad en la capa de autoatención independiente. Por último, investigamos la funcionalidad de las GANs de mejora del habla convolucionales aumentadas con autoatención. Los resultados experimentales sistemáticos indican que equipado con la capa de autoatención independiente, el sistema supera a los sistemas de referencia en cuanto a los criterios de evaluación clásicos con hasta un 95% menos de parámetros. Además, la modelización de la localidad puede ser un enfoque sin parámetros para una mayor mejora del rendimiento, y la autoatención también supera a todos los sistemas de referencia con un aumento aceptable de parámetros.