Análisis Comparativo de Arquitecturas de Aprendizaje Profundo y Transformadores de Visión para la Estimación de Clave Musical
Autores: Garg, Manav; Gajjar, Pranshav; Shah, Pooja; Shukla, Madhu; Acharya, Biswaranjan; Gerogiannis, Vassilis C.; Kanavos, Andreas
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Análisis Comparativo de Arquitecturas de Aprendizaje Profundo y Transformadores de Visión para la Estimación de Clave Musical
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Clave musical
Arquitecturas de aprendizaje profundo
Transformadores de visión
Estimación de acordes
Progresiones de acordes
Sistemas de recomendación musical
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La tonalidad sirve como un elemento crucial en una pieza, ofreciendo información vital sobre el centro tonal, la estructura armónica y las progresiones de acordes, al tiempo que permite tareas como la transposición y el arreglo. Además, la estimación precisa de la tonalidad encuentra aplicaciones prácticas en sistemas de recomendación musical y transcripción automática de música, lo que la hace relevante en ámbitos académicos e industriales. Este artículo presenta una comparación exhaustiva entre arquitecturas de aprendizaje profundo estándar y transformadores de visión emergentes, aprovechando su éxito en varios dominios. Evaluamos su rendimiento en un subconjunto específico del conjunto de datos GTZAN, analizando seis modelos diferentes de aprendizaje profundo. Nuestros resultados demuestran que DenseNet, una arquitectura de aprendizaje profundo convencional, logra una precisión notable del 91.64%, superando a los transformadores de visión. Sin embargo, profundizamos en el análisis para arrojar luz sobre las características temporales de cada modelo de aprendizaje profundo. Notablemente, el transformador de visión y el transformador SWIN exhiben una ligera disminución en el rendimiento general (1.82% y 2.29%, respectivamente), pero demuestran un rendimiento superior en métricas temporales en comparación con la arquitectura DenseNet. La importancia de nuestros hallazgos radica en su contribución al campo de la estimación de tonalidades musicales, donde algoritmos precisos y eficientes juegan un papel fundamental. Al examinar las fortalezas y debilidades de las arquitecturas de aprendizaje profundo y los transformadores de visión, podemos obtener valiosos conocimientos para implementaciones prácticas, particularmente en sistemas de recomendación musical y transcripción automática de música. Nuestra investigación proporciona una base para futuros avances y fomenta una mayor exploración en esta área.
Descripción
La tonalidad sirve como un elemento crucial en una pieza, ofreciendo información vital sobre el centro tonal, la estructura armónica y las progresiones de acordes, al tiempo que permite tareas como la transposición y el arreglo. Además, la estimación precisa de la tonalidad encuentra aplicaciones prácticas en sistemas de recomendación musical y transcripción automática de música, lo que la hace relevante en ámbitos académicos e industriales. Este artículo presenta una comparación exhaustiva entre arquitecturas de aprendizaje profundo estándar y transformadores de visión emergentes, aprovechando su éxito en varios dominios. Evaluamos su rendimiento en un subconjunto específico del conjunto de datos GTZAN, analizando seis modelos diferentes de aprendizaje profundo. Nuestros resultados demuestran que DenseNet, una arquitectura de aprendizaje profundo convencional, logra una precisión notable del 91.64%, superando a los transformadores de visión. Sin embargo, profundizamos en el análisis para arrojar luz sobre las características temporales de cada modelo de aprendizaje profundo. Notablemente, el transformador de visión y el transformador SWIN exhiben una ligera disminución en el rendimiento general (1.82% y 2.29%, respectivamente), pero demuestran un rendimiento superior en métricas temporales en comparación con la arquitectura DenseNet. La importancia de nuestros hallazgos radica en su contribución al campo de la estimación de tonalidades musicales, donde algoritmos precisos y eficientes juegan un papel fundamental. Al examinar las fortalezas y debilidades de las arquitecturas de aprendizaje profundo y los transformadores de visión, podemos obtener valiosos conocimientos para implementaciones prácticas, particularmente en sistemas de recomendación musical y transcripción automática de música. Nuestra investigación proporciona una base para futuros avances y fomenta una mayor exploración en esta área.