VM-RTDETR: Avanzando DETR con Dualidad de Espacio de Estado Visual y Fusión Multiescala para una Detección Robusta de Cerdos
Autores: Hao, Wangli; Xu, Shu-Ai; Shu, Hao; Li, Hanwei; Han, Meng; Li, Fuzhong; Liu, Yanhong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
VM-RTDETR: Avanzando DETR con Dualidad de Espacio de Estado Visual y Fusión Multiescala para una Detección Robusta de Cerdos
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Zootecnia
Palabras clave
Robusto
Detección de cerdos
Entornos agrícolas
Detector de objetos en tiempo real
Características a múltiples escalas
Monitoreo automatizado de ganado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 9
Citaciones: Sin citaciones
La detección robusta de cerdos en entornos agrícolas complejos requiere una representación unificada tanto de la semántica global como de los detalles locales, lo cual sigue siendo un desafío. Este documento propone VM-RTDETR, un modelo mejorado de RT-DETR (detector de objetos en tiempo real basado en transformadores) que aborda esto al sinergizar un backbone de Dualidad del Espacio de Estado Visual (VSSD) con un Codificador Multiescala (M-Encoder). El módulo VSSD rompe las limitaciones causales de los modelos tradicionales de espacio de estado (capturando eficientemente dependencias de largo alcance y contexto global dentro de una imagen) para capturar dependencias de largo alcance y contexto global, mientras que el M-Encoder extrae características multiescala paralelas para manejar variaciones de apariencia. Esta colaboración produce un detector que maneja robustamente cambios de escala, oclusiones y fondos complejos. En conjuntos de datos desafiantes, VM-RTDETR eleva el estado del arte, superando márgenes significativos a fuertes líneas base como RT-DETR. Proporciona una solución visual confiable y eficiente para el monitoreo automatizado de ganado.
Descripción
La detección robusta de cerdos en entornos agrícolas complejos requiere una representación unificada tanto de la semántica global como de los detalles locales, lo cual sigue siendo un desafío. Este documento propone VM-RTDETR, un modelo mejorado de RT-DETR (detector de objetos en tiempo real basado en transformadores) que aborda esto al sinergizar un backbone de Dualidad del Espacio de Estado Visual (VSSD) con un Codificador Multiescala (M-Encoder). El módulo VSSD rompe las limitaciones causales de los modelos tradicionales de espacio de estado (capturando eficientemente dependencias de largo alcance y contexto global dentro de una imagen) para capturar dependencias de largo alcance y contexto global, mientras que el M-Encoder extrae características multiescala paralelas para manejar variaciones de apariencia. Esta colaboración produce un detector que maneja robustamente cambios de escala, oclusiones y fondos complejos. En conjuntos de datos desafiantes, VM-RTDETR eleva el estado del arte, superando márgenes significativos a fuertes líneas base como RT-DETR. Proporciona una solución visual confiable y eficiente para el monitoreo automatizado de ganado.