logo móvil
Contáctanos

Detección de voz cantada en grabaciones de ópera: un estudio de caso sobre robustez y generalización

Autores: Krause, Michael; Müller, Meinard; Weiß, Christof

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Detección de voz cantada en grabaciones de ópera: un estudio de caso sobre robustez y generalización


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Detectar
Cantar
Grabaciones de audio de música
Sistemas de aprendizaje automático
Escenario de ópera
Aprendizaje supervisado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
Detectar automáticamente la presencia de canto en grabaciones de audio de música es una tarea central dentro de la recuperación de información musical. Si bien los sistemas modernos de aprendizaje automático producen resultados de alta calidad en esta tarea, los experimentos informados suelen estar limitados a la música popular y los sistemas entrenados a menudo se sobreajustan a factores confusos. En este documento, nuestro objetivo es obtener una comprensión más profunda de tales métodos de aprendizaje automático e investigar su robustez en un escenario desafiante de ópera. Con este fin, comparamos dos métodos de vanguardia para la detección de voz cantada basados en aprendizaje supervisado: un enfoque tradicional que depende de características hechas a mano con un clasificador de bosque aleatorio, así como un enfoque de aprendizaje profundo que depende de redes neuronales convolucionales. Para evaluar estos algoritmos, utilizamos un conjunto de datos de varias versiones que comprende 16 actuaciones grabadas (versiones) del ciclo de cuatro óperas de Richard Wagner. Este escenario nos permite investigar sistemáticamente la generalización a versiones no vistas, obras musicales o ambas. En particular, estudiamos la robustez de los sistemas entrenados dependiendo de la variedad acústica y musical, así como del tamaño total del conjunto de datos de entrenamiento. Nuestros experimentos muestran que ambos sistemas pueden detectar de manera robusta la voz cantada en grabaciones de ópera incluso cuando se entrenan con conjuntos de datos relativamente pequeños con poca variedad.

Otros recursos que podrían interesarte

Temas Virtualpro