Un conjunto de redes neuronales convolucionales para la detección de eventos de sonido
Autores: Mukhamadiyev, Abdinabi; Khujayarov, Ilyos; Nabieva, Dilorom; Cho, Jinsoo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un conjunto de redes neuronales convolucionales para la detección de eventos de sonido
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Detección de eventos de sonido
Métodos de aprendizaje profundo
Eventos emocionales
Edificios residenciales
Red neuronal convolucional recurrente
Conjunto de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Las tareas de detección de eventos de sonido están avanzando rápidamente en el campo del reconocimiento de patrones, y los métodos de aprendizaje profundo son particularmente adecuados para tales tareas. Una de las direcciones importantes en este campo es detectar los sonidos de eventos emocionales alrededor de edificios residenciales en ciudades inteligentes y evaluar rápidamente la situación con fines de seguridad. Esta investigación presenta un estudio exhaustivo de un modelo de red neuronal convolucional recurrente en conjunto (CRNN) diseñado para la detección de eventos de sonido (SED) en contextos de seguridad residencial y pública. El trabajo se enfoca en extraer características significativas de las señales de audio utilizando representaciones basadas en imágenes, como espectrogramas de Transformada Coseno Discreta (DCT), Cocheagrams y Mel espectrogramas, para mejorar la robustez contra el ruido y mejorar la extracción de características. En colaboración con oficiales de policía, se preparó un conjunto de datos de dos horas que consta de 112 clips relacionados con cuatro clases de sonidos emocionales, como acoso, peleas, gritos y sonidos de rotura. Además del conjunto de datos recopilado de manera colaborativa, se utilizaron conjuntos de datos públicamente disponibles para ampliar la aplicabilidad del estudio. Nuestro conjunto de datos contiene 5055 archivos de audio de diferentes longitudes que totalizan 14.14 h y datos etiquetados de manera sólida. El conjunto de datos consta de 13 categorías de sonido separadas. El modelo CRNN propuesto integra la extracción de características espaciales y temporales procesando estos espectrogramas a través de capas convolucionales y de unidades recurrentes bidireccionales (GRU). Un enfoque de conjunto combina predicciones de tres modelos, logrando puntajes F1 del 71.5% para métricas basadas en segmentos y del 46% para métricas basadas en eventos. Los resultados demuestran la efectividad del modelo en la detección de eventos de sonido bajo condiciones ruidosas, incluso con un conjunto de datos pequeño y desequilibrado. Esta investigación destaca el potencial del modelo para sistemas de vigilancia de audio en tiempo real utilizando miniordenadores, ofreciendo soluciones rentables y precisas para mantener el orden público.
Descripción
Las tareas de detección de eventos de sonido están avanzando rápidamente en el campo del reconocimiento de patrones, y los métodos de aprendizaje profundo son particularmente adecuados para tales tareas. Una de las direcciones importantes en este campo es detectar los sonidos de eventos emocionales alrededor de edificios residenciales en ciudades inteligentes y evaluar rápidamente la situación con fines de seguridad. Esta investigación presenta un estudio exhaustivo de un modelo de red neuronal convolucional recurrente en conjunto (CRNN) diseñado para la detección de eventos de sonido (SED) en contextos de seguridad residencial y pública. El trabajo se enfoca en extraer características significativas de las señales de audio utilizando representaciones basadas en imágenes, como espectrogramas de Transformada Coseno Discreta (DCT), Cocheagrams y Mel espectrogramas, para mejorar la robustez contra el ruido y mejorar la extracción de características. En colaboración con oficiales de policía, se preparó un conjunto de datos de dos horas que consta de 112 clips relacionados con cuatro clases de sonidos emocionales, como acoso, peleas, gritos y sonidos de rotura. Además del conjunto de datos recopilado de manera colaborativa, se utilizaron conjuntos de datos públicamente disponibles para ampliar la aplicabilidad del estudio. Nuestro conjunto de datos contiene 5055 archivos de audio de diferentes longitudes que totalizan 14.14 h y datos etiquetados de manera sólida. El conjunto de datos consta de 13 categorías de sonido separadas. El modelo CRNN propuesto integra la extracción de características espaciales y temporales procesando estos espectrogramas a través de capas convolucionales y de unidades recurrentes bidireccionales (GRU). Un enfoque de conjunto combina predicciones de tres modelos, logrando puntajes F1 del 71.5% para métricas basadas en segmentos y del 46% para métricas basadas en eventos. Los resultados demuestran la efectividad del modelo en la detección de eventos de sonido bajo condiciones ruidosas, incluso con un conjunto de datos pequeño y desequilibrado. Esta investigación destaca el potencial del modelo para sistemas de vigilancia de audio en tiempo real utilizando miniordenadores, ofreciendo soluciones rentables y precisas para mantener el orden público.