Sistema de clasificación de escenas acústicas basado en CNN
Autores: Lee, Yerin; Lim, Soyoung; Kwak, Il-Youp
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Sistema de clasificación de escenas acústicas basado en CNN
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Clasificación de escenas acústicas
Archivo de audio
Entorno
DCASE
Modelo de clasificación
Modelo de baja complejidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
La clasificación de escenas acústicas (ASC) categoriza un archivo de audio basado en el entorno en el que ha sido grabado. Esto ha sido estudiado durante mucho tiempo en la detección y clasificación de escenas y eventos acústicos (DCASE). Esto presenta la solución a la Tarea 1 del desafío DCASE 2020 presentado por el equipo de la Universidad Chung-Ang. La Tarea 1 abordó dos desafíos que enfrenta ASC en aplicaciones del mundo real. Uno es que el audio grabado con diferentes dispositivos de grabación debe clasificarse en general, y el otro es que el modelo utilizado debe tener baja complejidad. Propusimos dos modelos para superar los problemas mencionados anteriormente. Primero, se propuso un modelo de clasificación más general combinando la separación de fuentes armónicas-percursivas (HPSS) y las características de deltas-deltadeltas con cuatro modelos diferentes. En segundo lugar, utilizando la misma característica, se aplicó una convolución separable en profundidad a la capa convolucional para desarrollar un modelo de baja complejidad. Además, utilizando la asignación de activación de clase de peso de gradiente (Grad-CAM), investigamos qué parte de la característica ve e identifica nuestro modelo. Nuestro sistema propuesto ocupó el 9º y 7º lugar en la competencia para estas dos sub tareas, respectivamente.
Descripción
La clasificación de escenas acústicas (ASC) categoriza un archivo de audio basado en el entorno en el que ha sido grabado. Esto ha sido estudiado durante mucho tiempo en la detección y clasificación de escenas y eventos acústicos (DCASE). Esto presenta la solución a la Tarea 1 del desafío DCASE 2020 presentado por el equipo de la Universidad Chung-Ang. La Tarea 1 abordó dos desafíos que enfrenta ASC en aplicaciones del mundo real. Uno es que el audio grabado con diferentes dispositivos de grabación debe clasificarse en general, y el otro es que el modelo utilizado debe tener baja complejidad. Propusimos dos modelos para superar los problemas mencionados anteriormente. Primero, se propuso un modelo de clasificación más general combinando la separación de fuentes armónicas-percursivas (HPSS) y las características de deltas-deltadeltas con cuatro modelos diferentes. En segundo lugar, utilizando la misma característica, se aplicó una convolución separable en profundidad a la capa convolucional para desarrollar un modelo de baja complejidad. Además, utilizando la asignación de activación de clase de peso de gradiente (Grad-CAM), investigamos qué parte de la característica ve e identifica nuestro modelo. Nuestro sistema propuesto ocupó el 9º y 7º lugar en la competencia para estas dos sub tareas, respectivamente.