Detección de objetos en video utilizando Convolutional Lstm consciente de eventos y Redes de Relación de Objetos
Autores: Zhang, Chen; Xia, Zhengyu; Kim, Joohee
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Detección de objetos en video utilizando Convolutional Lstm consciente de eventos y Redes de Relación de Objetos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detectores de objetos basados en video
Información contextual temporal
Eventos desafiantes
ConvLSTM
Redes de relación de objetos
Rendimiento de detección
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
Los detectores de objetos basados en video comúnmente explotan información contextual temporal para mejorar el rendimiento de la detección de objetos. Sin embargo, la detección de objetos bajo condiciones desafiantes aún no ha sido estudiada a fondo. En este artículo, nos enfocamos en mejorar el rendimiento de detección para eventos desafiantes como cambio de relación de aspecto, oclusión o gran movimiento. Con este fin, proponemos una red de detección de objetos de video que utiliza ConvLSTM consciente de eventos y redes de relación de objetos. Nuestro ConvLSTM consciente de eventos propuesto es capaz de resaltar el área donde tienen lugar esos eventos desafiantes. En comparación con ConvLSTM tradicional, con el método propuesto es más fácil explotar la información contextual temporal para apoyar detectores de objetos basados en video bajo eventos desafiantes. Para mejorar aún más el rendimiento de detección, se aplica un módulo de relación de objetos que utiliza la selección de fotogramas de soporte para mejorar las características agrupadas para ROI objetivo. Selecciona efectivamente las características del mismo objeto de uno de los fotogramas de referencia en lugar de todos ellos. Los resultados experimentales en el conjunto de datos ImageNet VID muestran que el método propuesto logra un mAP del 81.0% sin ningún procesamiento posterior y puede manejar eventos desafiantes de manera eficiente en la detección de objetos de video.
Descripción
Los detectores de objetos basados en video comúnmente explotan información contextual temporal para mejorar el rendimiento de la detección de objetos. Sin embargo, la detección de objetos bajo condiciones desafiantes aún no ha sido estudiada a fondo. En este artículo, nos enfocamos en mejorar el rendimiento de detección para eventos desafiantes como cambio de relación de aspecto, oclusión o gran movimiento. Con este fin, proponemos una red de detección de objetos de video que utiliza ConvLSTM consciente de eventos y redes de relación de objetos. Nuestro ConvLSTM consciente de eventos propuesto es capaz de resaltar el área donde tienen lugar esos eventos desafiantes. En comparación con ConvLSTM tradicional, con el método propuesto es más fácil explotar la información contextual temporal para apoyar detectores de objetos basados en video bajo eventos desafiantes. Para mejorar aún más el rendimiento de detección, se aplica un módulo de relación de objetos que utiliza la selección de fotogramas de soporte para mejorar las características agrupadas para ROI objetivo. Selecciona efectivamente las características del mismo objeto de uno de los fotogramas de referencia en lugar de todos ellos. Los resultados experimentales en el conjunto de datos ImageNet VID muestran que el método propuesto logra un mAP del 81.0% sin ningún procesamiento posterior y puede manejar eventos desafiantes de manera eficiente en la detección de objetos de video.