Mejorada Extracción de Características y Algoritmo de Similitud para la Detección de Objetos en Video
Autores: You, Haotian; Lu, Yufang; Tang, Haihua
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorada Extracción de Características y Algoritmo de Similitud para la Detección de Objetos en Video
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Detección de objetos en video
Objetos en movimiento
Correlación temporal
Red de flujo óptico
Agregación de características
Faster RCNN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de objetos en video es una dirección de investigación importante en la visión por computadora. La tarea de la detección de objetos en video es detectar y clasificar objetos en movimiento en una secuencia de imágenes. Basándose en el detector de objetos de imagen estática, la mayoría de los métodos existentes de detección de objetos en video utilizan la única correlación temporal del video para resolver el problema de detección fallida y detección falsa causada por la oclusión y el desenfoque de objetos en movimiento. Otro modelo de detección de objetos en video guiado por una red de flujo óptico se utiliza ampliamente. La agregación de características de fotogramas adyacentes se realiza estimando el campo de flujo óptico. Sin embargo, hay muchos cálculos redundantes para la agregación de características de fotogramas adyacentes. Para comenzar, este artículo mejoró Faster RCNN mediante Feature Pyramid y Dynamic Region Aware Convolution. Luego, se propone el módulo S-SELSA desde la perspectiva de la similitud semántica y de características. La similitud de características se obtiene mediante un algoritmo SSIM modificado. El módulo puede agregar las características de los fotogramas de manera global para evitar redundancias. Finalmente, los resultados experimentales en los conjuntos de datos ImageNet VID y DET muestran que el mAP del método propuesto en este artículo es del 83.55%, lo que es más alto que los métodos existentes.
Descripción
La detección de objetos en video es una dirección de investigación importante en la visión por computadora. La tarea de la detección de objetos en video es detectar y clasificar objetos en movimiento en una secuencia de imágenes. Basándose en el detector de objetos de imagen estática, la mayoría de los métodos existentes de detección de objetos en video utilizan la única correlación temporal del video para resolver el problema de detección fallida y detección falsa causada por la oclusión y el desenfoque de objetos en movimiento. Otro modelo de detección de objetos en video guiado por una red de flujo óptico se utiliza ampliamente. La agregación de características de fotogramas adyacentes se realiza estimando el campo de flujo óptico. Sin embargo, hay muchos cálculos redundantes para la agregación de características de fotogramas adyacentes. Para comenzar, este artículo mejoró Faster RCNN mediante Feature Pyramid y Dynamic Region Aware Convolution. Luego, se propone el módulo S-SELSA desde la perspectiva de la similitud semántica y de características. La similitud de características se obtiene mediante un algoritmo SSIM modificado. El módulo puede agregar las características de los fotogramas de manera global para evitar redundancias. Finalmente, los resultados experimentales en los conjuntos de datos ImageNet VID y DET muestran que el mAP del método propuesto en este artículo es del 83.55%, lo que es más alto que los métodos existentes.