Reconocimiento de gestos de la policía de tráfico basado en el extractor de esqueleto de gestos y la red de convolución en grafo dilatado de múltiples canales
Autores: Xiong, Xin; Wu, Haoyuan; Min, Weidong; Xu, Jianqiang; Fu, Qiyan; Peng, Chunjiang
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Reconocimiento de gestos de la policía de tráfico basado en el extractor de esqueleto de gestos y la red de convolución en grafo dilatado de múltiples canales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de gestos de la policía de tráfico
Conducción automática
Métodos de aprendizaje profundo
Características del esqueleto de gestos
Red de convolución gráfica dilatada multicanal
Características basadas en GSE
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
El reconocimiento de gestos de la policía de tráfico es importante en la conducción automática. La mayoría de los métodos existentes de reconocimiento de gestos de la policía de tráfico extraen características a nivel de píxel de imágenes RGB que son ininterpretables debido a la falta de características de esqueleto de gestos y pueden resultar en un reconocimiento inexacto debido al ruido de fondo. Los métodos existentes de aprendizaje profundo no son adecuados para manejar características de esqueleto de gestos porque ignoran la conexión inevitable entre la información de coordenadas conjuntas de esqueleto y gestos. Para aliviar los problemas mencionados anteriormente, se propone un método de reconocimiento de gestos de la policía de tráfico basado en un extractor de esqueleto de gestos (GSE) y una red de convolución de gráficos dilatada multicanal (MD-GCN). Para extraer información de coordenadas de esqueleto de gestos discriminativa e interpretable, se propone un GSE para extraer información de coordenadas de esqueleto y eliminar articulaciones y huesos de esqueleto redundantes. En la etapa de discriminación de gestos, se introducen características basadas en GSE en el MD-GCN propuesto. El MD-GCN construye una convolución de gráficos con un dilatado multicanal para ampliar el campo receptivo, que extrae características de acción topológicas y espaciotemporales del cuerpo a partir de coordenadas de esqueleto. Se realizaron experimentos de comparación con métodos de vanguardia en un conjunto de datos público. Los resultados muestran que el método propuesto logra una tasa de precisión del 98.95%, que es la mejor y al menos un 6% más alta que la de los otros métodos.
Descripción
El reconocimiento de gestos de la policía de tráfico es importante en la conducción automática. La mayoría de los métodos existentes de reconocimiento de gestos de la policía de tráfico extraen características a nivel de píxel de imágenes RGB que son ininterpretables debido a la falta de características de esqueleto de gestos y pueden resultar en un reconocimiento inexacto debido al ruido de fondo. Los métodos existentes de aprendizaje profundo no son adecuados para manejar características de esqueleto de gestos porque ignoran la conexión inevitable entre la información de coordenadas conjuntas de esqueleto y gestos. Para aliviar los problemas mencionados anteriormente, se propone un método de reconocimiento de gestos de la policía de tráfico basado en un extractor de esqueleto de gestos (GSE) y una red de convolución de gráficos dilatada multicanal (MD-GCN). Para extraer información de coordenadas de esqueleto de gestos discriminativa e interpretable, se propone un GSE para extraer información de coordenadas de esqueleto y eliminar articulaciones y huesos de esqueleto redundantes. En la etapa de discriminación de gestos, se introducen características basadas en GSE en el MD-GCN propuesto. El MD-GCN construye una convolución de gráficos con un dilatado multicanal para ampliar el campo receptivo, que extrae características de acción topológicas y espaciotemporales del cuerpo a partir de coordenadas de esqueleto. Se realizaron experimentos de comparación con métodos de vanguardia en un conjunto de datos público. Los resultados muestran que el método propuesto logra una tasa de precisión del 98.95%, que es la mejor y al menos un 6% más alta que la de los otros métodos.