Dafe-msgat: extracción de características de doble atención y red de atención de gráficos multiescala para transcripción polifónica de piano

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Dafe-msgat: extracción de características de doble atención y red de atención de gráficos multiescala para transcripción polifónica de piano

Autores: Cao, Rui; Liang, Zushuang; Yan, Zheng; Liu, Bing

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Dafe-msgat: extracción de características de doble atención y red de atención de gráficos multiescala para transcripción polifónica de piano

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Transcripción automática de música

Señales de audio

Redes neuronales convolucionales

Red de atención

Notas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones

La transcripción automática de música (AMT) tiene como objetivo convertir señales de audio crudas en música simbólica. Esta es una tarea altamente desafiante en los campos de procesamiento de señales e inteligencia artificial, y tiene un valor de aplicación significativo en la recuperación de información musical (MIR). Los métodos existentes basados en redes neuronales convolucionales (CNN) a menudo no logran capturar las características tiempo-frecuencia de las señales de audio y tienden a pasar por alto las interdependencias entre las notas al procesar un piano polifónico con múltiples notas simultáneas. Para abordar estos problemas, proponemos un módulo de extracción de características de doble atención y una red de atención de gráficos multi-escala (DAFE-MSGAT). Específicamente, diseñamos un módulo de extracción de características de doble atención (DAFE) para mejorar las características de frecuencia y dominio temporal de la señal de audio, y utilizamos una red neuronal de memoria a corto plazo (LSTM) para capturar las características temporales dentro de la señal de audio. Introducimos una red de atención de gráficos multi-escala (MSGAT), que aprovecha las diversas relaciones implícitas entre las notas para mejorar la interacción entre diferentes notas. Los resultados experimentales demuestran que nuestro modelo logra una alta precisión en la detección del inicio y final de las notas en conjuntos de datos públicos. Tanto en métricas a nivel de cuadro como de nota, DAFE-MSGAT logra un rendimiento comparable a los métodos de vanguardia, mostrando capacidades de transcripción excepcionales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro