logo móvil
Contáctanos

Análisis Comparativo de Arquitecturas de Aprendizaje Profundo y Transformadores de Visión para la Estimación de Clave Musical

Autores: Garg, Manav; Gajjar, Pranshav; Shah, Pooja; Shukla, Madhu; Acharya, Biswaranjan; Gerogiannis, Vassilis C.; Kanavos, Andreas

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Análisis Comparativo de Arquitecturas de Aprendizaje Profundo y Transformadores de Visión para la Estimación de Clave Musical


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Clave musical
Arquitecturas de aprendizaje profundo
Transformadores de visión
Estimación de acordes
Progresiones de acordes
Sistemas de recomendación musical

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La tonalidad sirve como un elemento crucial en una pieza, ofreciendo información vital sobre el centro tonal, la estructura armónica y las progresiones de acordes, al tiempo que permite tareas como la transposición y el arreglo. Además, la estimación precisa de la tonalidad encuentra aplicaciones prácticas en sistemas de recomendación musical y transcripción automática de música, lo que la hace relevante en ámbitos académicos e industriales. Este artículo presenta una comparación exhaustiva entre arquitecturas de aprendizaje profundo estándar y transformadores de visión emergentes, aprovechando su éxito en varios dominios. Evaluamos su rendimiento en un subconjunto específico del conjunto de datos GTZAN, analizando seis modelos diferentes de aprendizaje profundo. Nuestros resultados demuestran que DenseNet, una arquitectura de aprendizaje profundo convencional, logra una precisión notable del 91.64%, superando a los transformadores de visión. Sin embargo, profundizamos en el análisis para arrojar luz sobre las características temporales de cada modelo de aprendizaje profundo. Notablemente, el transformador de visión y el transformador SWIN exhiben una ligera disminución en el rendimiento general (1.82% y 2.29%, respectivamente), pero demuestran un rendimiento superior en métricas temporales en comparación con la arquitectura DenseNet. La importancia de nuestros hallazgos radica en su contribución al campo de la estimación de tonalidades musicales, donde algoritmos precisos y eficientes juegan un papel fundamental. Al examinar las fortalezas y debilidades de las arquitecturas de aprendizaje profundo y los transformadores de visión, podemos obtener valiosos conocimientos para implementaciones prácticas, particularmente en sistemas de recomendación musical y transcripción automática de música. Nuestra investigación proporciona una base para futuros avances y fomenta una mayor exploración en esta área.

Otros recursos que podrían interesarte

Temas Virtualpro