Kernel density estimation y redes neuronales convolucionales para el reconocimiento de notación musical numerada multi-fuente

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Kernel density estimation y redes neuronales convolucionales para el reconocimiento de notación musical numerada multi-fuente

Autores: Wang, Qi; Zhou, Li; Chen, Xin

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Kernel density estimation y redes neuronales convolucionales para el reconocimiento de notación musical numerada multi-fuente

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento óptico de música

ROM

Notación musical numerada

NMN

Red neuronal convolucional

CNN

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones

El reconocimiento óptico de música (OMR) se refiere a convertir partituras musicales en información digitalizada utilizando electrónica. En los últimos años, pocos tipos de investigación de OMR han involucrado la notación musical numerada (NMN). El algoritmo de reconocimiento de NMN existente es difícil de manejar porque la fuente de la notación numerada está cambiando. En este documento, creamos un conjunto de datos NMN multi-fuente. Utilizando el conjunto de datos presentado, utilizamos la estimación de densidad de kernel con el criterio de línea de barra propuesto para medir la altura relativa de los símbolos, y se logra una separación precisa de las líneas de melodía y las líneas de letra en la notación musical. Además, desarrollamos una red neuronal convolucional (CNN) estructuralmente mejorada para clasificar los símbolos en las líneas de melodía. La red neuronal propuesta realiza un procesamiento jerárquico de las líneas de melodía de acuerdo con las reglas de disposición de los símbolos de NMN y contiene tres pequeñas CNN paralelas llamadas Arcnet, Notenet y Linenet. Cada una de ellas agrega una capa de agrupamiento de pirámide espacial para adaptarse a la diversidad de tamaños y estilos de símbolos. Los resultados experimentales muestran que nuestro algoritmo puede detectar con precisión las líneas de melodía. Tomando la tasa de precisión promedio de identificación de varios símbolos como la tasa de reconocimiento, las redes neuronales mejoradas alcanzan una tasa de reconocimiento del 95.5%, que es un 8.5% más alta que las redes neuronales convolucionales tradicionales. A través de comparaciones de audio y experimentos de evaluación, encontramos que el audio generado mantiene una alta similitud con el audio original de la NMN.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro