Presentamos el conjunto de datos ReaLISED para la clasificación de eventos de sonido
Autores: Mohino-Herranz, Inma; García-Gómez, Joaquín; Aguilar-Ortega, Miguel; Utrilla-Manso, Manuel; Gil-Pita, Roberto; Rosa-Zurera, Manuel
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Presentamos el conjunto de datos ReaLISED para la clasificación de eventos de sonido
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Conjunto de datos de eventos de sonido en interiores
Clasificación de eventos de sonido
Conjunto de datos escalable
Similitudes intraclase
Similitudes interclase
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Este documento presenta el Conjunto de Datos de Eventos de Sonido en Interiores de la Vida Real (ReaLISED), una nueva base de datos que se ha desarrollado para contribuir al avance científico al proporcionar una gran cantidad de grabaciones reales de eventos de audio en interiores etiquetadas. Ofrecen a la comunidad científica la posibilidad de probar algoritmos de Clasificación de Eventos de Sonido (SEC). El conjunto completo está compuesto por 2479 clips de sonido de 18 eventos diferentes, que fueron grabados siguiendo un proceso de grabación preciso descrito a lo largo de la propuesta. Esto, junto con una forma descrita de probar la similitud de nuevos audios, hace que el conjunto de datos sea escalable y abre la puerta a su crecimiento futuro, si así lo desean los investigadores. El conjunto completo presenta un buen equilibrio en términos del número de grabaciones de cada tipo de evento, lo cual es una característica deseable de cualquier conjunto de datos. Por otro lado, la principal limitación de los datos proporcionados es que todo el audio está grabado en entornos interiores, que fue el objetivo detrás de este desarrollo. Para probar la calidad del conjunto de datos, se evaluaron tanto las similitudes intraclase como interclase. La primera se ha estudiado a través del cálculo del coeficiente de correlación de Pearson intraclase y la posterior eliminación de audio redundante, mientras que la segunda se evaluó con la creación, entrenamiento y prueba de diferentes clasificadores: discriminantes lineales y cuadráticos, k-Vecinos más Cercanos (kNN), Máquinas de Vectores de Soporte (SVM), Perceptrón Multicapa (MLP) y Redes Neuronales Profundas (DNN). En primer lugar, se realizaron experimentos en todo el conjunto de datos y, posteriormente, en tres grupos diferentes (sonidos impulsivos, sonidos no impulsivos y electrodomésticos) compuestos por seis clases de acuerdo con los resultados del conjunto de datos completo. Este agrupamiento muestra la utilidad de seguir un proceso de clasificación en dos pasos.
Descripción
Este documento presenta el Conjunto de Datos de Eventos de Sonido en Interiores de la Vida Real (ReaLISED), una nueva base de datos que se ha desarrollado para contribuir al avance científico al proporcionar una gran cantidad de grabaciones reales de eventos de audio en interiores etiquetadas. Ofrecen a la comunidad científica la posibilidad de probar algoritmos de Clasificación de Eventos de Sonido (SEC). El conjunto completo está compuesto por 2479 clips de sonido de 18 eventos diferentes, que fueron grabados siguiendo un proceso de grabación preciso descrito a lo largo de la propuesta. Esto, junto con una forma descrita de probar la similitud de nuevos audios, hace que el conjunto de datos sea escalable y abre la puerta a su crecimiento futuro, si así lo desean los investigadores. El conjunto completo presenta un buen equilibrio en términos del número de grabaciones de cada tipo de evento, lo cual es una característica deseable de cualquier conjunto de datos. Por otro lado, la principal limitación de los datos proporcionados es que todo el audio está grabado en entornos interiores, que fue el objetivo detrás de este desarrollo. Para probar la calidad del conjunto de datos, se evaluaron tanto las similitudes intraclase como interclase. La primera se ha estudiado a través del cálculo del coeficiente de correlación de Pearson intraclase y la posterior eliminación de audio redundante, mientras que la segunda se evaluó con la creación, entrenamiento y prueba de diferentes clasificadores: discriminantes lineales y cuadráticos, k-Vecinos más Cercanos (kNN), Máquinas de Vectores de Soporte (SVM), Perceptrón Multicapa (MLP) y Redes Neuronales Profundas (DNN). En primer lugar, se realizaron experimentos en todo el conjunto de datos y, posteriormente, en tres grupos diferentes (sonidos impulsivos, sonidos no impulsivos y electrodomésticos) compuestos por seis clases de acuerdo con los resultados del conjunto de datos completo. Este agrupamiento muestra la utilidad de seguir un proceso de clasificación en dos pasos.