logo móvil
Contáctanos

Kernel density estimation y redes neuronales convolucionales para el reconocimiento de notación musical numerada multi-fuente

Autores: Wang, Qi; Zhou, Li; Chen, Xin

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Kernel density estimation y redes neuronales convolucionales para el reconocimiento de notación musical numerada multi-fuente


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento óptico de música
ROM
Notación musical numerada
NMN
Red neuronal convolucional
CNN

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones


Descripción
El reconocimiento óptico de música (OMR) se refiere a convertir partituras musicales en información digitalizada utilizando electrónica. En los últimos años, pocos tipos de investigación de OMR han involucrado la notación musical numerada (NMN). El algoritmo de reconocimiento de NMN existente es difícil de manejar porque la fuente de la notación numerada está cambiando. En este documento, creamos un conjunto de datos NMN multi-fuente. Utilizando el conjunto de datos presentado, utilizamos la estimación de densidad de kernel con el criterio de línea de barra propuesto para medir la altura relativa de los símbolos, y se logra una separación precisa de las líneas de melodía y las líneas de letra en la notación musical. Además, desarrollamos una red neuronal convolucional (CNN) estructuralmente mejorada para clasificar los símbolos en las líneas de melodía. La red neuronal propuesta realiza un procesamiento jerárquico de las líneas de melodía de acuerdo con las reglas de disposición de los símbolos de NMN y contiene tres pequeñas CNN paralelas llamadas Arcnet, Notenet y Linenet. Cada una de ellas agrega una capa de agrupamiento de pirámide espacial para adaptarse a la diversidad de tamaños y estilos de símbolos. Los resultados experimentales muestran que nuestro algoritmo puede detectar con precisión las líneas de melodía. Tomando la tasa de precisión promedio de identificación de varios símbolos como la tasa de reconocimiento, las redes neuronales mejoradas alcanzan una tasa de reconocimiento del 95.5%, que es un 8.5% más alta que las redes neuronales convolucionales tradicionales. A través de comparaciones de audio y experimentos de evaluación, encontramos que el audio generado mantiene una alta similitud con el audio original de la NMN.

Otros recursos que podrían interesarte

Temas Virtualpro