logo móvil
Contáctanos

HarmonyTok: Comparando Métodos para la Tokenización de Harmony para Aprendizaje Automático

Autores: Kaliakatsos-Papakostas, Maximos; Makris, Dimos; Soiledis, Konstantinos; Tsamis, Konstantinos-Theodoros; Katsouros, Vassilis; Cambouropoulos, Emilios

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

HarmonyTok: Comparando Métodos para la Tokenización de Harmony para Aprendizaje Automático


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Enfoques
Tokenización de armonía
Información de acordes
Clases de tono
RoBERTa
GPT-2/BART

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este artículo explora diferentes enfoques para la tokenización de armonías en música simbólica para modelos basados en transformadores, centrándose en dos tareas: modelado de lenguaje enmascarado (MLM) y generación de armonización melódica. Se comparan cuatro estrategias de tokenización, cada una variando en cómo se codifica la información de los acordes: (1) como símbolos de acordes completos, (2) separados en raíz y calidad, (3) como conjuntos de clases de altura, y (4) como conjuntos de clases de altura donde uno se designa como raíz. Se utiliza un conjunto de datos de más de 17,000 partituras de lead sheet para entrenar y evaluar RoBERTa para MLM y GPT-2/BART para armonización. Los resultados muestran que los métodos de escritura de acordes, aquellos que descomponen los acordes en tokens de clase de altura, logran una mayor precisión y menor perplejidad, lo que indica predicciones más confiadas. Estos métodos también producen menos errores a nivel de token. En las tareas de armonización, las tokenizaciones más gruesas (con más información por token) generan acordes más similares a los datos originales, mientras que los métodos basados en la escritura preservan mejor aspectos estructurales como el ritmo armónico y la alineación melodía-armonía. Las evaluaciones de audio revelan que los modelos basados en la escritura tienden hacia armonizaciones más genéricas y similares al pop, mientras que las tokenizaciones más gruesas reflejan más fielmente el estilo del conjunto de datos. En general, aunque ningún método de tokenización domina en todas las tareas, diferentes estrategias pueden ser preferibles para aplicaciones específicas, como clasificación o transferencia de estilo generativa.

Otros recursos que podrían interesarte

Temas Virtualpro