Detección de voz cantada en grabaciones de ópera: un estudio de caso sobre robustez y generalización
Autores: Krause, Michael; Müller, Meinard; Weiß, Christof
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Detección de voz cantada en grabaciones de ópera: un estudio de caso sobre robustez y generalización
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detectar
Cantar
Grabaciones de audio de música
Sistemas de aprendizaje automático
Escenario de ópera
Aprendizaje supervisado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Detectar automáticamente la presencia de canto en grabaciones de audio de música es una tarea central dentro de la recuperación de información musical. Si bien los sistemas modernos de aprendizaje automático producen resultados de alta calidad en esta tarea, los experimentos informados suelen estar limitados a la música popular y los sistemas entrenados a menudo se sobreajustan a factores confusos. En este documento, nuestro objetivo es obtener una comprensión más profunda de tales métodos de aprendizaje automático e investigar su robustez en un escenario desafiante de ópera. Con este fin, comparamos dos métodos de vanguardia para la detección de voz cantada basados en aprendizaje supervisado: un enfoque tradicional que depende de características hechas a mano con un clasificador de bosque aleatorio, así como un enfoque de aprendizaje profundo que depende de redes neuronales convolucionales. Para evaluar estos algoritmos, utilizamos un conjunto de datos de varias versiones que comprende 16 actuaciones grabadas (versiones) del ciclo de cuatro óperas de Richard Wagner. Este escenario nos permite investigar sistemáticamente la generalización a versiones no vistas, obras musicales o ambas. En particular, estudiamos la robustez de los sistemas entrenados dependiendo de la variedad acústica y musical, así como del tamaño total del conjunto de datos de entrenamiento. Nuestros experimentos muestran que ambos sistemas pueden detectar de manera robusta la voz cantada en grabaciones de ópera incluso cuando se entrenan con conjuntos de datos relativamente pequeños con poca variedad.
Descripción
Detectar automáticamente la presencia de canto en grabaciones de audio de música es una tarea central dentro de la recuperación de información musical. Si bien los sistemas modernos de aprendizaje automático producen resultados de alta calidad en esta tarea, los experimentos informados suelen estar limitados a la música popular y los sistemas entrenados a menudo se sobreajustan a factores confusos. En este documento, nuestro objetivo es obtener una comprensión más profunda de tales métodos de aprendizaje automático e investigar su robustez en un escenario desafiante de ópera. Con este fin, comparamos dos métodos de vanguardia para la detección de voz cantada basados en aprendizaje supervisado: un enfoque tradicional que depende de características hechas a mano con un clasificador de bosque aleatorio, así como un enfoque de aprendizaje profundo que depende de redes neuronales convolucionales. Para evaluar estos algoritmos, utilizamos un conjunto de datos de varias versiones que comprende 16 actuaciones grabadas (versiones) del ciclo de cuatro óperas de Richard Wagner. Este escenario nos permite investigar sistemáticamente la generalización a versiones no vistas, obras musicales o ambas. En particular, estudiamos la robustez de los sistemas entrenados dependiendo de la variedad acústica y musical, así como del tamaño total del conjunto de datos de entrenamiento. Nuestros experimentos muestran que ambos sistemas pueden detectar de manera robusta la voz cantada en grabaciones de ópera incluso cuando se entrenan con conjuntos de datos relativamente pequeños con poca variedad.