Investigando los efectos de la síntesis del conjunto de entrenamiento para la segmentación de audio de emisiones de radio
Autores: Venkatesh, Satvik; Moffat, David; Miranda, Eduardo Reck
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Investigando los efectos de la síntesis del conjunto de entrenamiento para la segmentación de audio de emisiones de radio
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Naturaleza
Algoritmos de aprendizaje automático
Arquitecturas de redes neuronales
Ducking de audio
Datos de entrenamiento sintéticos
Datos sintetizados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
La detección de música y habla nos proporciona información valiosa sobre la naturaleza del contenido en el audio de transmisión. Ayuda a detectar regiones acústicas que contienen habla, voz sobre música, solo música o silencio. En los últimos años, ha habido avances en algoritmos de aprendizaje automático para lograr esta tarea. Sin embargo, el audio de transmisión generalmente está bien mezclado y con derechos de autor, lo que dificulta compartirlo entre grupos de investigación. En este estudio, abordamos los desafíos encontrados al sintetizar automáticamente datos que se asemejan a una transmisión de radio. En primer lugar, comparamos arquitecturas de redes neuronales de última generación como CNN, GRU, LSTM, TCN y CRNN. Luego, investigamos cómo el "audio ducking" de la música de fondo afecta la precisión y la recuperación del algoritmo de aprendizaje automático. En tercer lugar, examinamos cómo la cantidad de datos de entrenamiento sintéticos afecta los resultados. Finalmente, evaluamos la efectividad de los enfoques de síntesis, datos del mundo real y combinados para entrenar modelos, para comprender si los datos sintéticos aportan algún valor adicional. Entre las arquitecturas de red, CRNN fue la red más efectiva. Los resultados también muestran que el nivel mínimo de "audio ducking" preferido por el algoritmo de aprendizaje automático fue similar al de los oyentes humanos. Después de probar nuestro modelo en conjuntos de datos internos y públicos, observamos que nuestra técnica de síntesis propuesta supera a los datos del mundo real en algunos casos y sirve como una alternativa prometedora.
Descripción
La detección de música y habla nos proporciona información valiosa sobre la naturaleza del contenido en el audio de transmisión. Ayuda a detectar regiones acústicas que contienen habla, voz sobre música, solo música o silencio. En los últimos años, ha habido avances en algoritmos de aprendizaje automático para lograr esta tarea. Sin embargo, el audio de transmisión generalmente está bien mezclado y con derechos de autor, lo que dificulta compartirlo entre grupos de investigación. En este estudio, abordamos los desafíos encontrados al sintetizar automáticamente datos que se asemejan a una transmisión de radio. En primer lugar, comparamos arquitecturas de redes neuronales de última generación como CNN, GRU, LSTM, TCN y CRNN. Luego, investigamos cómo el "audio ducking" de la música de fondo afecta la precisión y la recuperación del algoritmo de aprendizaje automático. En tercer lugar, examinamos cómo la cantidad de datos de entrenamiento sintéticos afecta los resultados. Finalmente, evaluamos la efectividad de los enfoques de síntesis, datos del mundo real y combinados para entrenar modelos, para comprender si los datos sintéticos aportan algún valor adicional. Entre las arquitecturas de red, CRNN fue la red más efectiva. Los resultados también muestran que el nivel mínimo de "audio ducking" preferido por el algoritmo de aprendizaje automático fue similar al de los oyentes humanos. Después de probar nuestro modelo en conjuntos de datos internos y públicos, observamos que nuestra técnica de síntesis propuesta supera a los datos del mundo real en algunos casos y sirve como una alternativa prometedora.