Extracción de fotogramas clave para reducir el esfuerzo humano en el entrenamiento de detección de objetos para videovigilancia
Autores: Sinulingga, Hagai R.; Kong, Seong G.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Extracción de fotogramas clave para reducir el esfuerzo humano en el entrenamiento de detección de objetos para videovigilancia
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje supervisado
Extracción de fotogramas clave
Modelos de aprendizaje profundo
Detección de objetos
Fotogramas de video
Falsos negativos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Este documento presenta un esquema de aprendizaje supervisado que emplea la extracción de fotogramas clave para mejorar el rendimiento de modelos de aprendizaje profundo pre-entrenados para la detección de objetos en videos de vigilancia. El desarrollo de modelos de aprendizaje profundo supervisado requiere una cantidad significativa de fotogramas de video anotados como datos de entrenamiento, lo que demanda un esfuerzo humano sustancial para la preparación. Los fotogramas clave, que abarcan fotogramas que contienen objetos falsos negativos o falsos positivos, pueden introducir diversidad en los datos de entrenamiento y contribuir a la mejora del modelo. Nuestro enfoque propuesto se centra en detectar falsos negativos aprovechando la información de movimiento dentro de los fotogramas de video que contienen la región de objeto detectada. La extracción de fotogramas clave reduce significativamente el esfuerzo humano involucrado en la extracción de fotogramas de video. Empleamos etiquetado interactivo para anotar fotogramas de video falsos negativos con cuadros delimitadores y etiquetas precisas. Estos fotogramas anotados se integran luego con los datos de entrenamiento existentes para crear un conjunto de datos de entrenamiento integral para ciclos de entrenamiento posteriores. Repetir los ciclos de entrenamiento mejora gradualmente el rendimiento de detección de objetos de los modelos de aprendizaje profundo para monitorear un nuevo entorno. Los resultados experimentales demuestran que el enfoque de aprendizaje propuesto mejora el rendimiento del modelo de detección de objetos en un nuevo entorno operativo, aumentando la precisión promedio media (mAP@0.5) del 54% al 98%. La anotación manual de fotogramas clave se reduce en un 81% a través del método de extracción de fotogramas clave propuesto.
Descripción
Este documento presenta un esquema de aprendizaje supervisado que emplea la extracción de fotogramas clave para mejorar el rendimiento de modelos de aprendizaje profundo pre-entrenados para la detección de objetos en videos de vigilancia. El desarrollo de modelos de aprendizaje profundo supervisado requiere una cantidad significativa de fotogramas de video anotados como datos de entrenamiento, lo que demanda un esfuerzo humano sustancial para la preparación. Los fotogramas clave, que abarcan fotogramas que contienen objetos falsos negativos o falsos positivos, pueden introducir diversidad en los datos de entrenamiento y contribuir a la mejora del modelo. Nuestro enfoque propuesto se centra en detectar falsos negativos aprovechando la información de movimiento dentro de los fotogramas de video que contienen la región de objeto detectada. La extracción de fotogramas clave reduce significativamente el esfuerzo humano involucrado en la extracción de fotogramas de video. Empleamos etiquetado interactivo para anotar fotogramas de video falsos negativos con cuadros delimitadores y etiquetas precisas. Estos fotogramas anotados se integran luego con los datos de entrenamiento existentes para crear un conjunto de datos de entrenamiento integral para ciclos de entrenamiento posteriores. Repetir los ciclos de entrenamiento mejora gradualmente el rendimiento de detección de objetos de los modelos de aprendizaje profundo para monitorear un nuevo entorno. Los resultados experimentales demuestran que el enfoque de aprendizaje propuesto mejora el rendimiento del modelo de detección de objetos en un nuevo entorno operativo, aumentando la precisión promedio media (mAP@0.5) del 54% al 98%. La anotación manual de fotogramas clave se reduce en un 81% a través del método de extracción de fotogramas clave propuesto.