Perspectivas sobre el Diseño de Sonido Generativo: Una Muestra de Paisajes Sonoros Generativos
Autores: Samson, Grzegorz
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Perspectivas sobre el Diseño de Sonido Generativo: Una Muestra de Paisajes Sonoros Generativos
Categoría
Artes
Subcategoría
Artes visuales
Palabras clave
Avances
Redes neuronales generativas
Modelos basados en transformadores
Diseño de sonido
Transformadores generativos preentrenados
Sintetizador granular
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
Los recientes avances en redes neuronales generativas, particularmente en modelos basados en transformadores, han introducido nuevas posibilidades para el diseño de sonido. Este estudio explora el uso de transformadores generativos preentrenados (GPT) para crear paisajes sonoros complejos y multicapa a partir de indicaciones textuales y visuales. Se propone un pipeline personalizado, que cuenta con módulos para convertir la entrada fuente en descripciones de sonido estructuradas y, posteriormente, generar salidas auditivas cohesivas. Como solución complementaria, se desarrolló un prototipo de sintetizador granular para mejorar la usabilidad de las muestras de audio generativas al permitir su recombinación en paisajes sonoros continuos y no repetitivos. La integración de modelos GPT con síntesis granular demuestra un potencial significativo para la producción de audio innovadora, allanando el camino para avances en flujos de trabajo profesionales de diseño de sonido y aplicaciones de audio inmersivas.
Descripción
Los recientes avances en redes neuronales generativas, particularmente en modelos basados en transformadores, han introducido nuevas posibilidades para el diseño de sonido. Este estudio explora el uso de transformadores generativos preentrenados (GPT) para crear paisajes sonoros complejos y multicapa a partir de indicaciones textuales y visuales. Se propone un pipeline personalizado, que cuenta con módulos para convertir la entrada fuente en descripciones de sonido estructuradas y, posteriormente, generar salidas auditivas cohesivas. Como solución complementaria, se desarrolló un prototipo de sintetizador granular para mejorar la usabilidad de las muestras de audio generativas al permitir su recombinación en paisajes sonoros continuos y no repetitivos. La integración de modelos GPT con síntesis granular demuestra un potencial significativo para la producción de audio innovadora, allanando el camino para avances en flujos de trabajo profesionales de diseño de sonido y aplicaciones de audio inmersivas.