logo móvil
Contáctanos

Dafe-msgat: extracción de características de doble atención y red de atención de gráficos multiescala para transcripción polifónica de piano

Autores: Cao, Rui; Liang, Zushuang; Yan, Zheng; Liu, Bing

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Dafe-msgat: extracción de características de doble atención y red de atención de gráficos multiescala para transcripción polifónica de piano


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Transcripción automática de música
Señales de audio
Redes neuronales convolucionales
Red de atención
Notas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
La transcripción automática de música (AMT) tiene como objetivo convertir señales de audio crudas en música simbólica. Esta es una tarea altamente desafiante en los campos de procesamiento de señales e inteligencia artificial, y tiene un valor de aplicación significativo en la recuperación de información musical (MIR). Los métodos existentes basados en redes neuronales convolucionales (CNN) a menudo no logran capturar las características tiempo-frecuencia de las señales de audio y tienden a pasar por alto las interdependencias entre las notas al procesar un piano polifónico con múltiples notas simultáneas. Para abordar estos problemas, proponemos un módulo de extracción de características de doble atención y una red de atención de gráficos multi-escala (DAFE-MSGAT). Específicamente, diseñamos un módulo de extracción de características de doble atención (DAFE) para mejorar las características de frecuencia y dominio temporal de la señal de audio, y utilizamos una red neuronal de memoria a corto plazo (LSTM) para capturar las características temporales dentro de la señal de audio. Introducimos una red de atención de gráficos multi-escala (MSGAT), que aprovecha las diversas relaciones implícitas entre las notas para mejorar la interacción entre diferentes notas. Los resultados experimentales demuestran que nuestro modelo logra una alta precisión en la detección del inicio y final de las notas en conjuntos de datos públicos. Tanto en métricas a nivel de cuadro como de nota, DAFE-MSGAT logra un rendimiento comparable a los métodos de vanguardia, mostrando capacidades de transcripción excepcionales.

Otros recursos que podrían interesarte

Temas Virtualpro