Investigando los efectos de la síntesis del conjunto de entrenamiento para la segmentación de audio de emisiones de radio

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Investigando los efectos de la síntesis del conjunto de entrenamiento para la segmentación de audio de emisiones de radio

Autores: Venkatesh, Satvik; Moffat, David; Miranda, Eduardo Reck

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Investigando los efectos de la síntesis del conjunto de entrenamiento para la segmentación de audio de emisiones de radio

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Naturaleza

Algoritmos de aprendizaje automático

Arquitecturas de redes neuronales

Ducking de audio

Datos de entrenamiento sintéticos

Datos sintetizados

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones

La detección de música y habla nos proporciona información valiosa sobre la naturaleza del contenido en el audio de transmisión. Ayuda a detectar regiones acústicas que contienen habla, voz sobre música, solo música o silencio. En los últimos años, ha habido avances en algoritmos de aprendizaje automático para lograr esta tarea. Sin embargo, el audio de transmisión generalmente está bien mezclado y con derechos de autor, lo que dificulta compartirlo entre grupos de investigación. En este estudio, abordamos los desafíos encontrados al sintetizar automáticamente datos que se asemejan a una transmisión de radio. En primer lugar, comparamos arquitecturas de redes neuronales de última generación como CNN, GRU, LSTM, TCN y CRNN. Luego, investigamos cómo el "audio ducking" de la música de fondo afecta la precisión y la recuperación del algoritmo de aprendizaje automático. En tercer lugar, examinamos cómo la cantidad de datos de entrenamiento sintéticos afecta los resultados. Finalmente, evaluamos la efectividad de los enfoques de síntesis, datos del mundo real y combinados para entrenar modelos, para comprender si los datos sintéticos aportan algún valor adicional. Entre las arquitecturas de red, CRNN fue la red más efectiva. Los resultados también muestran que el nivel mínimo de "audio ducking" preferido por el algoritmo de aprendizaje automático fue similar al de los oyentes humanos. Después de probar nuestro modelo en conjuntos de datos internos y públicos, observamos que nuestra técnica de síntesis propuesta supera a los datos del mundo real en algunos casos y sirve como una alternativa prometedora.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro