Pf2n: red de fusión de periodicidad-frecuencia para transcripción de música multiinstrumental
Autores: Kim, Taehyeon; Kim, Man-Je; Ahn, Chang Wook
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Pf2n: red de fusión de periodicidad-frecuencia para transcripción de música multiinstrumental
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Transcripción musical
Ajustes multi-instrumentales
Red de Fusión de Periodicidad-Frecuencia
Espectral
Representaciones en el dominio de la periodicidad
Características armónicamente correlacionadas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
La transcripción automática de música en entornos multiinstrumentales sigue siendo una tarea altamente desafiante debido a la superposición de armónicos y timbres diversos. Para abordar esto, proponemos la Red de Fusión de Periodicidad-Frecuencia (PF2N), un componente ligero y modular que mejora el rendimiento de la transcripción al integrar representaciones tanto espectrales como de dominio de periodicidad. Inspirado en métodos tradicionales de frecuencia y periodicidad combinadas (CFP), el PF2N reformula CFP como un módulo neuronal que aprende conjuntamente características correlacionadas armónicamente a través de los dominios de frecuencia y cepstral. A diferencia de alineaciones hechas a mano en enfoques clásicos, el PF2N realiza una fusión basada en datos utilizando un extractor de características conjunto aprendible. Experimentos extensos en tres conjuntos de datos de referencia (Slakh2100, MusicNet y MAESTRO) demuestran que el PF2N mejora consistentemente la precisión de la transcripción cuando se incorpora en modelos de vanguardia. Los resultados confirman la efectividad y adaptabilidad del PF2N, destacando su potencial como una mejora de propósito general para sistemas de AMT multiinstrumentales.
Descripción
La transcripción automática de música en entornos multiinstrumentales sigue siendo una tarea altamente desafiante debido a la superposición de armónicos y timbres diversos. Para abordar esto, proponemos la Red de Fusión de Periodicidad-Frecuencia (PF2N), un componente ligero y modular que mejora el rendimiento de la transcripción al integrar representaciones tanto espectrales como de dominio de periodicidad. Inspirado en métodos tradicionales de frecuencia y periodicidad combinadas (CFP), el PF2N reformula CFP como un módulo neuronal que aprende conjuntamente características correlacionadas armónicamente a través de los dominios de frecuencia y cepstral. A diferencia de alineaciones hechas a mano en enfoques clásicos, el PF2N realiza una fusión basada en datos utilizando un extractor de características conjunto aprendible. Experimentos extensos en tres conjuntos de datos de referencia (Slakh2100, MusicNet y MAESTRO) demuestran que el PF2N mejora consistentemente la precisión de la transcripción cuando se incorpora en modelos de vanguardia. Los resultados confirman la efectividad y adaptabilidad del PF2N, destacando su potencial como una mejora de propósito general para sistemas de AMT multiinstrumentales.