HarmonyTok: Comparando Métodos para la Tokenización de Harmony para Aprendizaje Automático
Autores: Kaliakatsos-Papakostas, Maximos; Makris, Dimos; Soiledis, Konstantinos; Tsamis, Konstantinos-Theodoros; Katsouros, Vassilis; Cambouropoulos, Emilios
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
HarmonyTok: Comparando Métodos para la Tokenización de Harmony para Aprendizaje Automático
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Enfoques
Tokenización de armonía
Información de acordes
Clases de tono
RoBERTa
GPT-2/BART
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este artículo explora diferentes enfoques para la tokenización de armonías en música simbólica para modelos basados en transformadores, centrándose en dos tareas: modelado de lenguaje enmascarado (MLM) y generación de armonización melódica. Se comparan cuatro estrategias de tokenización, cada una variando en cómo se codifica la información de los acordes: (1) como símbolos de acordes completos, (2) separados en raíz y calidad, (3) como conjuntos de clases de altura, y (4) como conjuntos de clases de altura donde uno se designa como raíz. Se utiliza un conjunto de datos de más de 17,000 partituras de lead sheet para entrenar y evaluar RoBERTa para MLM y GPT-2/BART para armonización. Los resultados muestran que los métodos de escritura de acordes, aquellos que descomponen los acordes en tokens de clase de altura, logran una mayor precisión y menor perplejidad, lo que indica predicciones más confiadas. Estos métodos también producen menos errores a nivel de token. En las tareas de armonización, las tokenizaciones más gruesas (con más información por token) generan acordes más similares a los datos originales, mientras que los métodos basados en la escritura preservan mejor aspectos estructurales como el ritmo armónico y la alineación melodía-armonía. Las evaluaciones de audio revelan que los modelos basados en la escritura tienden hacia armonizaciones más genéricas y similares al pop, mientras que las tokenizaciones más gruesas reflejan más fielmente el estilo del conjunto de datos. En general, aunque ningún método de tokenización domina en todas las tareas, diferentes estrategias pueden ser preferibles para aplicaciones específicas, como clasificación o transferencia de estilo generativa.
Descripción
Este artículo explora diferentes enfoques para la tokenización de armonías en música simbólica para modelos basados en transformadores, centrándose en dos tareas: modelado de lenguaje enmascarado (MLM) y generación de armonización melódica. Se comparan cuatro estrategias de tokenización, cada una variando en cómo se codifica la información de los acordes: (1) como símbolos de acordes completos, (2) separados en raíz y calidad, (3) como conjuntos de clases de altura, y (4) como conjuntos de clases de altura donde uno se designa como raíz. Se utiliza un conjunto de datos de más de 17,000 partituras de lead sheet para entrenar y evaluar RoBERTa para MLM y GPT-2/BART para armonización. Los resultados muestran que los métodos de escritura de acordes, aquellos que descomponen los acordes en tokens de clase de altura, logran una mayor precisión y menor perplejidad, lo que indica predicciones más confiadas. Estos métodos también producen menos errores a nivel de token. En las tareas de armonización, las tokenizaciones más gruesas (con más información por token) generan acordes más similares a los datos originales, mientras que los métodos basados en la escritura preservan mejor aspectos estructurales como el ritmo armónico y la alineación melodía-armonía. Las evaluaciones de audio revelan que los modelos basados en la escritura tienden hacia armonizaciones más genéricas y similares al pop, mientras que las tokenizaciones más gruesas reflejan más fielmente el estilo del conjunto de datos. En general, aunque ningún método de tokenización domina en todas las tareas, diferentes estrategias pueden ser preferibles para aplicaciones específicas, como clasificación o transferencia de estilo generativa.