logo móvil
Contáctanos

Investigando los efectos de la síntesis del conjunto de entrenamiento para la segmentación de audio de emisiones de radio

Autores: Venkatesh, Satvik; Moffat, David; Miranda, Eduardo Reck

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Investigando los efectos de la síntesis del conjunto de entrenamiento para la segmentación de audio de emisiones de radio


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Naturaleza
Algoritmos de aprendizaje automático
Arquitecturas de redes neuronales
Ducking de audio
Datos de entrenamiento sintéticos
Datos sintetizados

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
La detección de música y habla nos proporciona información valiosa sobre la naturaleza del contenido en el audio de transmisión. Ayuda a detectar regiones acústicas que contienen habla, voz sobre música, solo música o silencio. En los últimos años, ha habido avances en algoritmos de aprendizaje automático para lograr esta tarea. Sin embargo, el audio de transmisión generalmente está bien mezclado y con derechos de autor, lo que dificulta compartirlo entre grupos de investigación. En este estudio, abordamos los desafíos encontrados al sintetizar automáticamente datos que se asemejan a una transmisión de radio. En primer lugar, comparamos arquitecturas de redes neuronales de última generación como CNN, GRU, LSTM, TCN y CRNN. Luego, investigamos cómo el "audio ducking" de la música de fondo afecta la precisión y la recuperación del algoritmo de aprendizaje automático. En tercer lugar, examinamos cómo la cantidad de datos de entrenamiento sintéticos afecta los resultados. Finalmente, evaluamos la efectividad de los enfoques de síntesis, datos del mundo real y combinados para entrenar modelos, para comprender si los datos sintéticos aportan algún valor adicional. Entre las arquitecturas de red, CRNN fue la red más efectiva. Los resultados también muestran que el nivel mínimo de "audio ducking" preferido por el algoritmo de aprendizaje automático fue similar al de los oyentes humanos. Después de probar nuestro modelo en conjuntos de datos internos y públicos, observamos que nuestra técnica de síntesis propuesta supera a los datos del mundo real en algunos casos y sirve como una alternativa prometedora.

Otros recursos que podrían interesarte

Temas Virtualpro