Generando datos de voz sintética de ballena cachalote utilizando StyleGAN2-ADA
Autores: Kopets, Ekaterina; Shpilevaya, Tatiana; Vasilchenko, Oleg; Karimov, Artur; Butusov, Denis
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Generando datos de voz sintética de ballena cachalote utilizando StyleGAN2-ADA
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Aprendizaje profundo
Redes neuronales
Biología marina
Sonidos biológicos sintéticos
Vocalizaciones de ballenas cachalotes
Red generativa adversaria
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La aplicación de redes neuronales de aprendizaje profundo permite el procesamiento de volúmenes extensos de datos y a menudo requiere conjuntos de datos densos. En ciertos dominios, los investigadores encuentran desafíos relacionados con la escasez de datos de entrenamiento, especialmente en biología marina. Además, muchos sonidos producidos por mamíferos marinos son de interés en aplicaciones técnicas, por ejemplo, la comunicación submarina o la construcción de sonares. Por lo tanto, generar sonidos biológicos sintéticos es una tarea importante para comprender y estudiar el comportamiento de diversas especies animales, especialmente grandes mamíferos marinos, que demuestran un comportamiento social complejo y pueden usar la hidrolocalización para navegar bajo el agua. Este estudio está dedicado a generar vocalizaciones de cachalotes utilizando un conjunto de datos limitado de clics de cachalotes. Nuestro enfoque utiliza una técnica de aumento basada en la transformación de espectrogramas de muestras de audio, seguida por el uso de la red generativa adversaria StyleGAN2-ADA para generar nuevos datos de audio. Los resultados muestran que utilizando el método de aumento elegido, es decir, mezclar a lo largo del eje temporal, es posible crear clics bastante similares de cachalotes con una desviación máxima del 2%. La generación de nuevos clics se reprodujo en conjuntos de datos utilizando enfoques de aumento seleccionados con dos redes neuronales: StyleGAN2-ADA y WaveGan. StyleGAN2-ADA, entrenado en un conjunto de datos aumentado utilizando el enfoque de mezcla de ejes, mostró mejores resultados en comparación con WaveGAN.
Descripción
La aplicación de redes neuronales de aprendizaje profundo permite el procesamiento de volúmenes extensos de datos y a menudo requiere conjuntos de datos densos. En ciertos dominios, los investigadores encuentran desafíos relacionados con la escasez de datos de entrenamiento, especialmente en biología marina. Además, muchos sonidos producidos por mamíferos marinos son de interés en aplicaciones técnicas, por ejemplo, la comunicación submarina o la construcción de sonares. Por lo tanto, generar sonidos biológicos sintéticos es una tarea importante para comprender y estudiar el comportamiento de diversas especies animales, especialmente grandes mamíferos marinos, que demuestran un comportamiento social complejo y pueden usar la hidrolocalización para navegar bajo el agua. Este estudio está dedicado a generar vocalizaciones de cachalotes utilizando un conjunto de datos limitado de clics de cachalotes. Nuestro enfoque utiliza una técnica de aumento basada en la transformación de espectrogramas de muestras de audio, seguida por el uso de la red generativa adversaria StyleGAN2-ADA para generar nuevos datos de audio. Los resultados muestran que utilizando el método de aumento elegido, es decir, mezclar a lo largo del eje temporal, es posible crear clics bastante similares de cachalotes con una desviación máxima del 2%. La generación de nuevos clics se reprodujo en conjuntos de datos utilizando enfoques de aumento seleccionados con dos redes neuronales: StyleGAN2-ADA y WaveGan. StyleGAN2-ADA, entrenado en un conjunto de datos aumentado utilizando el enfoque de mezcla de ejes, mostró mejores resultados en comparación con WaveGAN.