DCNN para la Clasificación de Vocalización y No Vocalización de Cerdos: Evaluar la Robustez del Modelo con Nuevos Datos
Autores: Pann, Vandet; Kwon, Kyeong-seok; Kim, Byeonghyeon; Jang, Dong-Hwa; Kim, Jong-Bok
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
DCNN para la Clasificación de Vocalización y No Vocalización de Cerdos: Evaluar la Robustez del Modelo con Nuevos Datos
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Zootecnia
Palabras clave
Vocalización porcina
Aprendizaje profundo
Métodos de extracción de características
Mixed-MMCT
Rendimiento del modelo
Agricultura porcina real
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 12
Citaciones: Sin citaciones
Dado que la vocalización porcina es un indicador importante para monitorear las condiciones de los cerdos, la detección y reconocimiento de la vocalización porcina utilizando aprendizaje profundo juegan un papel crucial en la gestión y el bienestar de la cría moderna de ganado porcino. Sin embargo, la recopilación de datos de sonido de cerdos para el entrenamiento de modelos de aprendizaje profundo requiere tiempo y esfuerzo. Reconociendo los desafíos de recopilar datos de sonido de cerdos para el entrenamiento del modelo, este estudio introduce una arquitectura de red neuronal convolucional profunda (DCNN) para la clasificación de vocalización y no vocalización porcina con un conjunto de datos de una granja porcina real. Se evaluaron individualmente varios métodos de extracción de características de audio para comparar las diferencias de rendimiento, incluyendo coeficientes cepstrales en escala de Mel (MFCC), espectrograma de Mel, Chroma y Tonnetz. Este estudio propone un nuevo método de extracción de características llamado Mixed-MMCT para mejorar la precisión de clasificación al integrar características de MFCC, espectrograma de Mel, Chroma y Tonnetz. Estos métodos de extracción de características se aplicaron para extraer características relevantes del conjunto de datos de sonido de cerdos para su entrada en una red de aprendizaje profundo. Para el experimento, se recopilaron tres conjuntos de datos de tres granjas porcinas reales: Nias, Gimje y Jeongeup. Cada conjunto de datos consta de 4000 archivos WAV (2000 de vocalización porcina y 2000 de no vocalización porcina) con una duración de tres segundos. Se utilizaron diversas técnicas de aumento de datos de audio en el conjunto de entrenamiento para mejorar el rendimiento y la generalización del modelo, incluyendo cambio de tono, desplazamiento temporal, estiramiento temporal y ruido de fondo. En este estudio, se evaluó el rendimiento del modelo predictivo de aprendizaje profundo utilizando la técnica de validación cruzada k-fold (k = 5) en cada conjunto de datos. Al realizar experimentos rigurosos, Mixed-MMCT mostró una precisión superior en Nias, Gimje y Jeongeup, con tasas del 99.50%, 99.56% y 99.67%, respectivamente. Se realizaron experimentos de robustez para probar la efectividad del modelo utilizando dos conjuntos de datos de granjas como conjunto de entrenamiento y una granja como conjunto de prueba. El rendimiento promedio de Mixed-MMCT en términos de precisión, exactitud, recuperación y puntuación F1 alcanzó tasas del 95.67%, 96.25%, 95.68% y 95.96%, respectivamente. Todos los resultados demuestran que el método de extracción de características Mixed-MMCT propuesto supera a otros métodos en cuanto a la clasificación de vocalización y no vocalización porcina en la cría real de ganado porcino.
Descripción
Dado que la vocalización porcina es un indicador importante para monitorear las condiciones de los cerdos, la detección y reconocimiento de la vocalización porcina utilizando aprendizaje profundo juegan un papel crucial en la gestión y el bienestar de la cría moderna de ganado porcino. Sin embargo, la recopilación de datos de sonido de cerdos para el entrenamiento de modelos de aprendizaje profundo requiere tiempo y esfuerzo. Reconociendo los desafíos de recopilar datos de sonido de cerdos para el entrenamiento del modelo, este estudio introduce una arquitectura de red neuronal convolucional profunda (DCNN) para la clasificación de vocalización y no vocalización porcina con un conjunto de datos de una granja porcina real. Se evaluaron individualmente varios métodos de extracción de características de audio para comparar las diferencias de rendimiento, incluyendo coeficientes cepstrales en escala de Mel (MFCC), espectrograma de Mel, Chroma y Tonnetz. Este estudio propone un nuevo método de extracción de características llamado Mixed-MMCT para mejorar la precisión de clasificación al integrar características de MFCC, espectrograma de Mel, Chroma y Tonnetz. Estos métodos de extracción de características se aplicaron para extraer características relevantes del conjunto de datos de sonido de cerdos para su entrada en una red de aprendizaje profundo. Para el experimento, se recopilaron tres conjuntos de datos de tres granjas porcinas reales: Nias, Gimje y Jeongeup. Cada conjunto de datos consta de 4000 archivos WAV (2000 de vocalización porcina y 2000 de no vocalización porcina) con una duración de tres segundos. Se utilizaron diversas técnicas de aumento de datos de audio en el conjunto de entrenamiento para mejorar el rendimiento y la generalización del modelo, incluyendo cambio de tono, desplazamiento temporal, estiramiento temporal y ruido de fondo. En este estudio, se evaluó el rendimiento del modelo predictivo de aprendizaje profundo utilizando la técnica de validación cruzada k-fold (k = 5) en cada conjunto de datos. Al realizar experimentos rigurosos, Mixed-MMCT mostró una precisión superior en Nias, Gimje y Jeongeup, con tasas del 99.50%, 99.56% y 99.67%, respectivamente. Se realizaron experimentos de robustez para probar la efectividad del modelo utilizando dos conjuntos de datos de granjas como conjunto de entrenamiento y una granja como conjunto de prueba. El rendimiento promedio de Mixed-MMCT en términos de precisión, exactitud, recuperación y puntuación F1 alcanzó tasas del 95.67%, 96.25%, 95.68% y 95.96%, respectivamente. Todos los resultados demuestran que el método de extracción de características Mixed-MMCT propuesto supera a otros métodos en cuanto a la clasificación de vocalización y no vocalización porcina en la cría real de ganado porcino.