Análisis Comparativo de Arquitecturas de Aprendizaje Profundo y Transformadores de Visión para la Estimación de Clave Musical

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Análisis Comparativo de Arquitecturas de Aprendizaje Profundo y Transformadores de Visión para la Estimación de Clave Musical

Autores: Garg, Manav; Gajjar, Pranshav; Shah, Pooja; Shukla, Madhu; Acharya, Biswaranjan; Gerogiannis, Vassilis C.; Kanavos, Andreas

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Análisis Comparativo de Arquitecturas de Aprendizaje Profundo y Transformadores de Visión para la Estimación de Clave Musical

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Clave musical

Arquitecturas de aprendizaje profundo

Transformadores de visión

Estimación de acordes

Progresiones de acordes

Sistemas de recomendación musical

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La tonalidad sirve como un elemento crucial en una pieza, ofreciendo información vital sobre el centro tonal, la estructura armónica y las progresiones de acordes, al tiempo que permite tareas como la transposición y el arreglo. Además, la estimación precisa de la tonalidad encuentra aplicaciones prácticas en sistemas de recomendación musical y transcripción automática de música, lo que la hace relevante en ámbitos académicos e industriales. Este artículo presenta una comparación exhaustiva entre arquitecturas de aprendizaje profundo estándar y transformadores de visión emergentes, aprovechando su éxito en varios dominios. Evaluamos su rendimiento en un subconjunto específico del conjunto de datos GTZAN, analizando seis modelos diferentes de aprendizaje profundo. Nuestros resultados demuestran que DenseNet, una arquitectura de aprendizaje profundo convencional, logra una precisión notable del 91.64%, superando a los transformadores de visión. Sin embargo, profundizamos en el análisis para arrojar luz sobre las características temporales de cada modelo de aprendizaje profundo. Notablemente, el transformador de visión y el transformador SWIN exhiben una ligera disminución en el rendimiento general (1.82% y 2.29%, respectivamente), pero demuestran un rendimiento superior en métricas temporales en comparación con la arquitectura DenseNet. La importancia de nuestros hallazgos radica en su contribución al campo de la estimación de tonalidades musicales, donde algoritmos precisos y eficientes juegan un papel fundamental. Al examinar las fortalezas y debilidades de las arquitecturas de aprendizaje profundo y los transformadores de visión, podemos obtener valiosos conocimientos para implementaciones prácticas, particularmente en sistemas de recomendación musical y transcripción automática de música. Nuestra investigación proporciona una base para futuros avances y fomenta una mayor exploración en esta área.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro