Red de Reconocimiento de Acciones por Convolución de Grafos Refinados Adaptativos con Características Mejoradas para la Regulación de Personal en Tierra de UAV
Autores: Zhou, Qing; Dong, Liheng; Zhang, Zhaoxiang; Xu, Yuelei; Xiao, Feng; Wang, Yingxia
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Red de Reconocimiento de Acciones por Convolución de Grafos Refinados Adaptativos con Características Mejoradas para la Regulación de Personal en Tierra de UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Reconocimiento de acciones
Red neuronal convolucional gráfica
Refinamiento adaptativo
Modelado temporal
Información espacial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para las tareas de agrupamiento del personal de tierra de vehículos aéreos no tripulados (UAV), la precisión del reconocimiento de acciones basado en esqueletos a menudo está limitada por la alta similitud de los patrones de movimiento entre las categorías de acción, así como por las variaciones en el rendimiento individual. Para abordar este problema, proponemos una red de convolución gráfica refinada adaptativa con características mejoradas para el reconocimiento de acciones. Primero, se construye un módulo de modelado de características de orden múltiple y movimiento, que integra posiciones de articulaciones, estructuras esqueléticas y codificaciones angulares para una representación de multi-granularidad. Luego, se fusionan características del dominio estático y dinámico para mejorar la diversidad y expresividad de las representaciones de entrada. En segundo lugar, se diseña un módulo de convolución gráfica adaptativa impulsado por datos, donde las interacciones entre articulaciones se modelan dinámicamente a través de una topología aprendible. Además, se introduce un mecanismo de activación de características de refinamiento adaptativo para optimizar el flujo de información entre nodos, permitiendo un modelado detallado de la información espacial esquelética. Finalmente, se incorpora un módulo de modelado temporal semántico de índice de fotogramas, donde se introducen semánticas de tipo de articulación y semánticas de índice de fotograma en las dimensiones espacial y temporal, respectivamente, para capturar la evolución temporal de las acciones y explotar de manera integral las correlaciones semánticas espaciotemporales. En los conjuntos de datos de referencia NTU-RGB+D 60 y NTU-RGB+D 120, el método propuesto logra precisiones del 89.4% y 94.2% bajo configuraciones X-Sub y X-View, respectivamente, así como 81.7% y 83.3% en los respectivos puntos de referencia. En el conjunto de datos de personal de tierra de aeródromo UAV auto-construido, el método propuesto alcanza precisiones del 90.71% y 96.09% bajo configuraciones X-Sub y HO, respectivamente. Los experimentos de robustez ambiental demuestran que bajo condiciones ambientales complejas, incluyendo variaciones de iluminación, neblina, lluvia, sombras y oclusiones, la adopción de la estrategia de Prueba + Entrenamiento reduce la degradación máxima del rendimiento de 3.1 puntos porcentuales a menos de 1 punto porcentual. Las pruebas de rendimiento en tiempo real muestran que el sistema logra una latencia de inferencia de extremo a extremo de 24.5 ms (40.8 FPS) en el dispositivo de borde NVIDIA Jetson Xavier NX, cumpliendo con los requisitos de procesamiento en tiempo real y validando la eficiencia y practicidad del método propuesto en plataformas de computación en el borde.
Descripción
Para las tareas de agrupamiento del personal de tierra de vehículos aéreos no tripulados (UAV), la precisión del reconocimiento de acciones basado en esqueletos a menudo está limitada por la alta similitud de los patrones de movimiento entre las categorías de acción, así como por las variaciones en el rendimiento individual. Para abordar este problema, proponemos una red de convolución gráfica refinada adaptativa con características mejoradas para el reconocimiento de acciones. Primero, se construye un módulo de modelado de características de orden múltiple y movimiento, que integra posiciones de articulaciones, estructuras esqueléticas y codificaciones angulares para una representación de multi-granularidad. Luego, se fusionan características del dominio estático y dinámico para mejorar la diversidad y expresividad de las representaciones de entrada. En segundo lugar, se diseña un módulo de convolución gráfica adaptativa impulsado por datos, donde las interacciones entre articulaciones se modelan dinámicamente a través de una topología aprendible. Además, se introduce un mecanismo de activación de características de refinamiento adaptativo para optimizar el flujo de información entre nodos, permitiendo un modelado detallado de la información espacial esquelética. Finalmente, se incorpora un módulo de modelado temporal semántico de índice de fotogramas, donde se introducen semánticas de tipo de articulación y semánticas de índice de fotograma en las dimensiones espacial y temporal, respectivamente, para capturar la evolución temporal de las acciones y explotar de manera integral las correlaciones semánticas espaciotemporales. En los conjuntos de datos de referencia NTU-RGB+D 60 y NTU-RGB+D 120, el método propuesto logra precisiones del 89.4% y 94.2% bajo configuraciones X-Sub y X-View, respectivamente, así como 81.7% y 83.3% en los respectivos puntos de referencia. En el conjunto de datos de personal de tierra de aeródromo UAV auto-construido, el método propuesto alcanza precisiones del 90.71% y 96.09% bajo configuraciones X-Sub y HO, respectivamente. Los experimentos de robustez ambiental demuestran que bajo condiciones ambientales complejas, incluyendo variaciones de iluminación, neblina, lluvia, sombras y oclusiones, la adopción de la estrategia de Prueba + Entrenamiento reduce la degradación máxima del rendimiento de 3.1 puntos porcentuales a menos de 1 punto porcentual. Las pruebas de rendimiento en tiempo real muestran que el sistema logra una latencia de inferencia de extremo a extremo de 24.5 ms (40.8 FPS) en el dispositivo de borde NVIDIA Jetson Xavier NX, cumpliendo con los requisitos de procesamiento en tiempo real y validando la eficiencia y practicidad del método propuesto en plataformas de computación en el borde.