Desarrollo de un nuevo modelo ligero de CNN para la clasificación de acciones humanas en videos capturados por UAV
Autores: Othman, Nashwan Adnan; Aydin, Ilhan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Desarrollo de un nuevo modelo ligero de CNN para la clasificación de acciones humanas en videos capturados por UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos aéreos no tripulados autónomos
Reconocimiento de acciones humanas
Videos de UAV
Modelos de aprendizaje profundo
Modelo HarNet
Conjunto de datos UCF-ARG
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Recientemente se ha prestado más atención a los vehículos aéreos no tripulados (VANT) autónomos debido a su uso en varios campos. El reconocimiento de acciones humanas (HAR) en videos de VANT juega un papel importante en diversas aplicaciones de la vida real. Aunque el HAR utilizando fotogramas de VANT no ha recibido mucha atención por parte de los investigadores hasta la fecha, sigue siendo un área significativa que necesita más estudio debido a su relevancia para el desarrollo de algoritmos eficientes para la vigilancia autónoma de drones. Los modelos actuales de aprendizaje profundo para HAR tienen limitaciones, como grandes parámetros de peso y velocidades de inferencia lentas, lo que los hace inadecuados para aplicaciones prácticas que requieren detección rápida y precisa de acciones humanas inusuales. En respuesta a este problema, este artículo presenta un nuevo modelo de aprendizaje profundo basado en convoluciones separables por profundidad que ha sido diseñado para ser ligero. Otras partes del modelo HarNet comprenden bloques de convolución, unidad lineal rectificada, abandono, agrupamiento, relleno y bloques densos. La efectividad del modelo ha sido probada utilizando el conjunto de datos UCF-ARG, disponible públicamente. El modelo propuesto, llamado HarNet, ha mejorado la tasa de clasificación exitosa. Cada unidad de datos de fotograma fue preprocesada una por una mediante diferentes métodos de visión por computadora antes de ser incorporada al modelo HarNet. El modelo propuesto, que tiene una arquitectura compacta con solo 2.2 millones de parámetros, obtuvo una tasa de éxito del 96.15% en clasificación, superando a los modelos MobileNet, Xception, DenseNet201, Inception-ResNetV2, VGG-16 y VGG-19 en el mismo conjunto de datos. El modelo propuesto tuvo numerosas ventajas clave, incluyendo baja complejidad, un pequeño número de parámetros y alto rendimiento en clasificación. Los resultados de este artículo mostraron que el rendimiento del modelo fue superior al de otros modelos que utilizaron el conjunto de datos UCF-ARG.
Descripción
Recientemente se ha prestado más atención a los vehículos aéreos no tripulados (VANT) autónomos debido a su uso en varios campos. El reconocimiento de acciones humanas (HAR) en videos de VANT juega un papel importante en diversas aplicaciones de la vida real. Aunque el HAR utilizando fotogramas de VANT no ha recibido mucha atención por parte de los investigadores hasta la fecha, sigue siendo un área significativa que necesita más estudio debido a su relevancia para el desarrollo de algoritmos eficientes para la vigilancia autónoma de drones. Los modelos actuales de aprendizaje profundo para HAR tienen limitaciones, como grandes parámetros de peso y velocidades de inferencia lentas, lo que los hace inadecuados para aplicaciones prácticas que requieren detección rápida y precisa de acciones humanas inusuales. En respuesta a este problema, este artículo presenta un nuevo modelo de aprendizaje profundo basado en convoluciones separables por profundidad que ha sido diseñado para ser ligero. Otras partes del modelo HarNet comprenden bloques de convolución, unidad lineal rectificada, abandono, agrupamiento, relleno y bloques densos. La efectividad del modelo ha sido probada utilizando el conjunto de datos UCF-ARG, disponible públicamente. El modelo propuesto, llamado HarNet, ha mejorado la tasa de clasificación exitosa. Cada unidad de datos de fotograma fue preprocesada una por una mediante diferentes métodos de visión por computadora antes de ser incorporada al modelo HarNet. El modelo propuesto, que tiene una arquitectura compacta con solo 2.2 millones de parámetros, obtuvo una tasa de éxito del 96.15% en clasificación, superando a los modelos MobileNet, Xception, DenseNet201, Inception-ResNetV2, VGG-16 y VGG-19 en el mismo conjunto de datos. El modelo propuesto tuvo numerosas ventajas clave, incluyendo baja complejidad, un pequeño número de parámetros y alto rendimiento en clasificación. Los resultados de este artículo mostraron que el rendimiento del modelo fue superior al de otros modelos que utilizaron el conjunto de datos UCF-ARG.