Detección de eventos basada en audio en diferentes configuraciones de relación señal-ruido utilizando representaciones de magnitud de espectrograma bidimensional
Autores: Papadimitriou, Ioannis; Vafeiadis, Anastasios; Lalas, Antonios; Votis, Konstantinos; Tzovaras, Dimitrios
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Detección de eventos basada en audio en diferentes configuraciones de relación señal-ruido utilizando representaciones de magnitud de espectrograma bidimensional
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Audio
Detección de eventos
Desafíos
Enfoques multimodales
Análisis
Representaciones de espectrograma
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La detección de eventos basada en audio plantea una serie de desafíos diferentes que no se encuentran en otros campos, como la detección de imágenes. Desafíos como el ruido ambiental, la baja Relación Señal-Ruido (SNR) y la distancia del micrófono aún no se comprenden completamente. Si los enfoques multimodales quieren mejorar en una variedad de campos de interés, el análisis de audio tendrá que desempeñar un papel integral. El reconocimiento de eventos en vehículos autónomos (AVs) es un campo en una etapa incipiente que puede aprovechar especialmente solo el audio o formar parte del enfoque multimodal. En este manuscrito, se presenta un análisis exhaustivo centrado en la comparación de diferentes representaciones de magnitud del audio sin procesar. Los datos en los que se realiza el análisis forman parte del conjunto de datos de eventos de audio MIVIA Audio Events disponible públicamente. Se utilizan representaciones de espectrogramas de Transformada de Fourier de Tiempo Corto (STFT) de un solo canal, escala mel y Coeficientes Cepstrales de Frecuencia Mel (MFCCs). Además, se examinan métodos de agregación de las mencionadas representaciones de espectrogramas; la concatenación de características en comparación con el apilamiento de características como canales separados. Se estudia y se informa sobre el efecto de la SNR en la precisión de reconocimiento y la generalización de los métodos propuestos en conjuntos de datos que fueron vistos y no vistos durante el entrenamiento.
Descripción
La detección de eventos basada en audio plantea una serie de desafíos diferentes que no se encuentran en otros campos, como la detección de imágenes. Desafíos como el ruido ambiental, la baja Relación Señal-Ruido (SNR) y la distancia del micrófono aún no se comprenden completamente. Si los enfoques multimodales quieren mejorar en una variedad de campos de interés, el análisis de audio tendrá que desempeñar un papel integral. El reconocimiento de eventos en vehículos autónomos (AVs) es un campo en una etapa incipiente que puede aprovechar especialmente solo el audio o formar parte del enfoque multimodal. En este manuscrito, se presenta un análisis exhaustivo centrado en la comparación de diferentes representaciones de magnitud del audio sin procesar. Los datos en los que se realiza el análisis forman parte del conjunto de datos de eventos de audio MIVIA Audio Events disponible públicamente. Se utilizan representaciones de espectrogramas de Transformada de Fourier de Tiempo Corto (STFT) de un solo canal, escala mel y Coeficientes Cepstrales de Frecuencia Mel (MFCCs). Además, se examinan métodos de agregación de las mencionadas representaciones de espectrogramas; la concatenación de características en comparación con el apilamiento de características como canales separados. Se estudia y se informa sobre el efecto de la SNR en la precisión de reconocimiento y la generalización de los métodos propuestos en conjuntos de datos que fueron vistos y no vistos durante el entrenamiento.