Investigación de modelado y reconocimiento de transformador de sonido de aves
Autores: Yi, Darui; Shen, Xizhong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Investigación de modelado y reconocimiento de transformador de sonido de aves
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Pájaros
Ecosistema
Biodiversidad
Identificación
Método de reconocimiento
Redes neuronales convolucionales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 47
Citaciones: Sin citaciones
Las aves desempeñan un papel fundamental en la investigación de ecosistemas y biodiversidad, y la identificación precisa de aves contribuye al monitoreo de la biodiversidad, la comprensión de la funcionalidad del ecosistema y el desarrollo de estrategias efectivas de conservación. Los métodos actuales para el reconocimiento de sonidos de aves a menudo implican el procesamiento de cantos de aves en diversas características acústicas o características de fusión para su identificación, lo que puede resultar en la pérdida de información y complicar el proceso de reconocimiento. Al mismo tiempo, el método de reconocimiento basado en audio de aves crudo no ha recibido una amplia atención. Por lo tanto, este estudio propone un método de reconocimiento de sonidos de aves que utiliza múltiples redes neuronales convolucionales unidimensionales para aprender directamente representaciones de características a partir de datos de audio crudos, simplificando el proceso de extracción de características. También aplicamos convolución de incrustación posicional y múltiples módulos de Transformador para mejorar el procesamiento de características y mejorar la precisión. Además, introducimos una matriz de pesos entrenable para controlar la importancia de cada módulo de Transformador para una mejor generalización del modelo. Los resultados experimentales demuestran la efectividad de nuestro modelo, con una tasa de precisión del 99.58% para el conjunto de datos público Birds_data, así como del 98.77% para el conjunto de datos Birdsonund1, y del 99.03% para el conjunto de datos de sonido ambiental UrbanSound8K.
Descripción
Las aves desempeñan un papel fundamental en la investigación de ecosistemas y biodiversidad, y la identificación precisa de aves contribuye al monitoreo de la biodiversidad, la comprensión de la funcionalidad del ecosistema y el desarrollo de estrategias efectivas de conservación. Los métodos actuales para el reconocimiento de sonidos de aves a menudo implican el procesamiento de cantos de aves en diversas características acústicas o características de fusión para su identificación, lo que puede resultar en la pérdida de información y complicar el proceso de reconocimiento. Al mismo tiempo, el método de reconocimiento basado en audio de aves crudo no ha recibido una amplia atención. Por lo tanto, este estudio propone un método de reconocimiento de sonidos de aves que utiliza múltiples redes neuronales convolucionales unidimensionales para aprender directamente representaciones de características a partir de datos de audio crudos, simplificando el proceso de extracción de características. También aplicamos convolución de incrustación posicional y múltiples módulos de Transformador para mejorar el procesamiento de características y mejorar la precisión. Además, introducimos una matriz de pesos entrenable para controlar la importancia de cada módulo de Transformador para una mejor generalización del modelo. Los resultados experimentales demuestran la efectividad de nuestro modelo, con una tasa de precisión del 99.58% para el conjunto de datos público Birds_data, así como del 98.77% para el conjunto de datos Birdsonund1, y del 99.03% para el conjunto de datos de sonido ambiental UrbanSound8K.