Avanzando en el aprendizaje profundo para la composición musical expresiva y el modelado de la interpretación
Autores: Zhang, Man
Idioma: Inglés
Editor: Rafal Marszalek
Año: 2025
Acceso abierto
Avanzando en el aprendizaje profundo para la composición musical expresiva y el modelado de la interpretación
Categoría
Subcategoría
Palabras clave
Licencia
Consultas: 71
Citaciones: La IA en las industrias creativas y culturales
La búsqueda de la generación de música expresiva y similar a la humana sigue siendo un desafío significativo en el campo de la inteligencia artificial (IA). Este estudio presenta un análisis comparativo de tres arquitecturas líderes de aprendizaje profundo: redes de memoria a largo plazo (LSTM), modelos Transformer y redes generativas antagónicas (GAN), para la composición y transcripción musical generada por IA utilizando el conjunto de datos MAESTRO. El modelo propone la integración de un marco de evaluación dual que combina métricas objetivas con evaluaciones humanas subjetivas a través de un estudio de puntuación de opinión media (MOS) con 50 oyentes. El modelo Transformer logró el mejor rendimiento general, lo que indica su capacidad superior para producir resultados musicalmente ricos y expresivos. Sin embargo, las composiciones humanas se mantuvieron con la mejor calidad perceptual. Los hallazgos proporcionan una base de referencia para futuros sistemas de música con IA y enfatizan la necesidad de un modelado consciente de las emociones.
La búsqueda de la generación de música expresiva y similar a la humana sigue siendo un desafío significativo en el campo de la inteligencia artificial (IA). Este estudio presenta un análisis comparativo de tres arquitecturas líderes de aprendizaje profundo: redes de memoria a largo plazo (LSTM), modelos Transformer y redes generativas antagónicas (GAN), para la composición y transcripción musical generada por IA utilizando el conjunto de datos MAESTRO. El modelo propone la integración de un marco de evaluación dual que combina métricas objetivas con evaluaciones humanas subjetivas a través de un estudio de puntuación de opinión media (MOS) con 50 oyentes. El modelo Transformer logró el mejor rendimiento general, lo que indica su capacidad superior para producir resultados musicalmente ricos y expresivos. Sin embargo, las composiciones humanas se mantuvieron con la mejor calidad perceptual. Los hallazgos proporcionan una base de referencia para futuros sistemas de música con IA y enfatizan la necesidad de un modelado consciente de las emociones.