logo móvil
Contáctanos

Generando datos de voz sintética de ballena cachalote utilizando StyleGAN2-ADA

Autores: Kopets, Ekaterina; Shpilevaya, Tatiana; Vasilchenko, Oleg; Karimov, Artur; Butusov, Denis

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Generando datos de voz sintética de ballena cachalote utilizando StyleGAN2-ADA


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Aprendizaje profundo
Redes neuronales
Biología marina
Sonidos biológicos sintéticos
Vocalizaciones de ballenas cachalotes
Red generativa adversaria

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
La aplicación de redes neuronales de aprendizaje profundo permite el procesamiento de volúmenes extensos de datos y a menudo requiere conjuntos de datos densos. En ciertos dominios, los investigadores encuentran desafíos relacionados con la escasez de datos de entrenamiento, especialmente en biología marina. Además, muchos sonidos producidos por mamíferos marinos son de interés en aplicaciones técnicas, por ejemplo, la comunicación submarina o la construcción de sonares. Por lo tanto, generar sonidos biológicos sintéticos es una tarea importante para comprender y estudiar el comportamiento de diversas especies animales, especialmente grandes mamíferos marinos, que demuestran un comportamiento social complejo y pueden usar la hidrolocalización para navegar bajo el agua. Este estudio está dedicado a generar vocalizaciones de cachalotes utilizando un conjunto de datos limitado de clics de cachalotes. Nuestro enfoque utiliza una técnica de aumento basada en la transformación de espectrogramas de muestras de audio, seguida por el uso de la red generativa adversaria StyleGAN2-ADA para generar nuevos datos de audio. Los resultados muestran que utilizando el método de aumento elegido, es decir, mezclar a lo largo del eje temporal, es posible crear clics bastante similares de cachalotes con una desviación máxima del 2%. La generación de nuevos clics se reprodujo en conjuntos de datos utilizando enfoques de aumento seleccionados con dos redes neuronales: StyleGAN2-ADA y WaveGan. StyleGAN2-ADA, entrenado en un conjunto de datos aumentado utilizando el enfoque de mezcla de ejes, mostró mejores resultados en comparación con WaveGAN.

Otros recursos que podrían interesarte

Temas Virtualpro