Segmentación de instancias guiada por atención para cerdos criados en grupo
Autores: Hu, Zhiwei; Yang, Hua; Yan, Hongwen
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Segmentación de instancias guiada por atención para cerdos criados en grupo
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Zootecnia
Palabras clave
Entorno de cría de cerdos
Segmentación
Datos de video
Módulo de atención
Estrategias de aumento de datos
Mask R-CNN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 9
Citaciones: Sin citaciones
En el entorno de la cría de cerdos, factores complejos como la adhesión de los cerdos, la oclusión y los cambios en la postura corporal representan desafíos significativos para segmentar múltiples cerdos objetivo. Para abordar estos desafíos, este estudio recopiló datos de video utilizando un ángulo de visión horizontal y una lente no fija. Específicamente, se seleccionaron un total de 45 cerdos de entre 20 y 105 días en 8 corrales como sujetos de investigación, lo que resultó en 1917 imágenes etiquetadas. Estas imágenes se dividieron en 959 para entrenamiento, 192 para validación y 766 para pruebas. Se empleó el módulo de atención agrupada en la red de pirámide de características para fusionar los mapas de características de capas profundas y superficiales. El módulo de atención agrupada consta de una rama de atención de canal y una rama de atención espacial. La rama de atención de canal modela eficazmente las dependencias entre canales para mejorar el mapeo de características entre canales relacionados y mejorar la representación de características semánticas. La rama de atención espacial establece dependencias a nivel de píxel al aplicar los valores de respuesta de todos los píxeles en un mapa de características de un solo canal al píxel objetivo. Además, guía el mapa de características original para filtrar la información de ubicación espacial y generar salidas relacionadas con el contexto. La atención agrupada, junto con estrategias de aumento de datos, se incorporó en las redes de tareas Mask R-CNN y Cascade Mask R-CNN para explorar su impacto en la segmentación de cerdos. Los experimentos mostraron que la introducción de estrategias de aumento de datos mejoró el rendimiento de segmentación del modelo hasta cierto punto. Tomando Mask-RCNN como ejemplo, bajo las mismas condiciones experimentales, la introducción de estrategias de aumento de datos resultó en mejoras del 1.5%, 0.7%, 0.4% y 0.5% en las métricas, respectivamente. Además, nuestro módulo de atención agrupada logró el mejor rendimiento. Por ejemplo, en comparación con el módulo de atención existente CBAM, tomando Mask R-CNN como ejemplo, en términos de las métricas, la atención agrupada superó en un 1.0%, 0.3%, 1.1% y 1.2%, respectivamente. Además, estudiamos el impacto del número de grupos en la atención agrupada sobre los resultados finales de segmentación. Adicionalmente, las visualizaciones de predicciones en datos de terceros recopilados utilizando un método de adquisición de datos de arriba hacia abajo, que no se involucró en el entrenamiento del modelo, demostraron que el modelo propuesto en este documento aún logró buenos resultados de segmentación, probando la transferibilidad y robustez de la atención agrupada. A través de un análisis exhaustivo, encontramos que la atención agrupada es beneficiosa para lograr una segmentación de alta precisión de cerdos individuales en diferentes escenas, edades y períodos de tiempo. Los resultados de la investigación pueden proporcionar referencias para aplicaciones posteriores como la identificación de cerdos y el análisis de comportamiento en entornos móviles.
Descripción
En el entorno de la cría de cerdos, factores complejos como la adhesión de los cerdos, la oclusión y los cambios en la postura corporal representan desafíos significativos para segmentar múltiples cerdos objetivo. Para abordar estos desafíos, este estudio recopiló datos de video utilizando un ángulo de visión horizontal y una lente no fija. Específicamente, se seleccionaron un total de 45 cerdos de entre 20 y 105 días en 8 corrales como sujetos de investigación, lo que resultó en 1917 imágenes etiquetadas. Estas imágenes se dividieron en 959 para entrenamiento, 192 para validación y 766 para pruebas. Se empleó el módulo de atención agrupada en la red de pirámide de características para fusionar los mapas de características de capas profundas y superficiales. El módulo de atención agrupada consta de una rama de atención de canal y una rama de atención espacial. La rama de atención de canal modela eficazmente las dependencias entre canales para mejorar el mapeo de características entre canales relacionados y mejorar la representación de características semánticas. La rama de atención espacial establece dependencias a nivel de píxel al aplicar los valores de respuesta de todos los píxeles en un mapa de características de un solo canal al píxel objetivo. Además, guía el mapa de características original para filtrar la información de ubicación espacial y generar salidas relacionadas con el contexto. La atención agrupada, junto con estrategias de aumento de datos, se incorporó en las redes de tareas Mask R-CNN y Cascade Mask R-CNN para explorar su impacto en la segmentación de cerdos. Los experimentos mostraron que la introducción de estrategias de aumento de datos mejoró el rendimiento de segmentación del modelo hasta cierto punto. Tomando Mask-RCNN como ejemplo, bajo las mismas condiciones experimentales, la introducción de estrategias de aumento de datos resultó en mejoras del 1.5%, 0.7%, 0.4% y 0.5% en las métricas, respectivamente. Además, nuestro módulo de atención agrupada logró el mejor rendimiento. Por ejemplo, en comparación con el módulo de atención existente CBAM, tomando Mask R-CNN como ejemplo, en términos de las métricas, la atención agrupada superó en un 1.0%, 0.3%, 1.1% y 1.2%, respectivamente. Además, estudiamos el impacto del número de grupos en la atención agrupada sobre los resultados finales de segmentación. Adicionalmente, las visualizaciones de predicciones en datos de terceros recopilados utilizando un método de adquisición de datos de arriba hacia abajo, que no se involucró en el entrenamiento del modelo, demostraron que el modelo propuesto en este documento aún logró buenos resultados de segmentación, probando la transferibilidad y robustez de la atención agrupada. A través de un análisis exhaustivo, encontramos que la atención agrupada es beneficiosa para lograr una segmentación de alta precisión de cerdos individuales en diferentes escenas, edades y períodos de tiempo. Los resultados de la investigación pueden proporcionar referencias para aplicaciones posteriores como la identificación de cerdos y el análisis de comportamiento en entornos móviles.