logo móvil
Contáctanos

Un conjunto de redes neuronales convolucionales para la detección de eventos de sonido

Autores: Mukhamadiyev, Abdinabi; Khujayarov, Ilyos; Nabieva, Dilorom; Cho, Jinsoo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Un conjunto de redes neuronales convolucionales para la detección de eventos de sonido


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Detección de eventos de sonido
Métodos de aprendizaje profundo
Eventos emocionales
Edificios residenciales
Red neuronal convolucional recurrente
Conjunto de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
Las tareas de detección de eventos de sonido están avanzando rápidamente en el campo del reconocimiento de patrones, y los métodos de aprendizaje profundo son particularmente adecuados para tales tareas. Una de las direcciones importantes en este campo es detectar los sonidos de eventos emocionales alrededor de edificios residenciales en ciudades inteligentes y evaluar rápidamente la situación con fines de seguridad. Esta investigación presenta un estudio exhaustivo de un modelo de red neuronal convolucional recurrente en conjunto (CRNN) diseñado para la detección de eventos de sonido (SED) en contextos de seguridad residencial y pública. El trabajo se enfoca en extraer características significativas de las señales de audio utilizando representaciones basadas en imágenes, como espectrogramas de Transformada Coseno Discreta (DCT), Cocheagrams y Mel espectrogramas, para mejorar la robustez contra el ruido y mejorar la extracción de características. En colaboración con oficiales de policía, se preparó un conjunto de datos de dos horas que consta de 112 clips relacionados con cuatro clases de sonidos emocionales, como acoso, peleas, gritos y sonidos de rotura. Además del conjunto de datos recopilado de manera colaborativa, se utilizaron conjuntos de datos públicamente disponibles para ampliar la aplicabilidad del estudio. Nuestro conjunto de datos contiene 5055 archivos de audio de diferentes longitudes que totalizan 14.14 h y datos etiquetados de manera sólida. El conjunto de datos consta de 13 categorías de sonido separadas. El modelo CRNN propuesto integra la extracción de características espaciales y temporales procesando estos espectrogramas a través de capas convolucionales y de unidades recurrentes bidireccionales (GRU). Un enfoque de conjunto combina predicciones de tres modelos, logrando puntajes F1 del 71.5% para métricas basadas en segmentos y del 46% para métricas basadas en eventos. Los resultados demuestran la efectividad del modelo en la detección de eventos de sonido bajo condiciones ruidosas, incluso con un conjunto de datos pequeño y desequilibrado. Esta investigación destaca el potencial del modelo para sistemas de vigilancia de audio en tiempo real utilizando miniordenadores, ofreciendo soluciones rentables y precisas para mantener el orden público.

Otros recursos que podrían interesarte

Temas Virtualpro