logo móvil
Contáctanos

Un ligero red transformadora de características consciente del contexto para la estimación de postura humana

Autores: Ma, Yanli; Shi, Qingxuan; Zhang, Fan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un ligero red transformadora de características consciente del contexto para la estimación de postura humana


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Transformerneck
Redes neuronales convolucionales
Transformer contextual
Módulo de agregación de características de atención
Módulo de refinamiento adaptativo
Puntos clave

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Proponemos una Red Transformadora de Características Consciente del Contexto (CaFTNet), una red novedosa para la estimación de postura humana. Para abordar el problema de la limitada modelización de dependencias globales en las redes neuronales convolucionales, diseñamos el Transformerneck para fortalecer el poder expresivo de las características. Transformerneck sustituye directamente la convolución en el cuello de botella de HRNet con un bloque de Transformador Contextual (CoT) mientras se reduce la complejidad de la red. Específicamente, el CoT primero produce claves con información contextual estática a través de la convolución. Luego, basándose en la consulta y las claves de contextualización, se generan contextos dinámicos a través de dos convoluciones concatenadas. Los contextos estáticos y dinámicos se fusionan eventualmente como una salida. Además, para las redes multi-escala, con el fin de refinar aún más las características de la salida de fusión, proponemos un Módulo de Agregación de Características de Atención (AFAM). Técnicamente, dado una entrada intermedia, el AFAM deduce sucesivamente mapas de atención a lo largo de las dimensiones de canal y espaciales. Luego, un módulo de refinamiento adaptativo (ARM) se explota para activar los mapas de atención obtenidos. Finalmente, la entrada experimenta un refinamiento adaptativo de características mediante la multiplicación con los mapas de atención activados. A través de los procedimientos anteriores, nuestra red ligera proporciona pistas poderosas para la detección de puntos clave. Se realizan experimentos en los conjuntos de datos COCO y MPII. El modelo alcanza un AP de 76.2 en el conjunto de datos val2017 de COCO. En comparación con otros métodos con una CNN como columna vertebral, CaFTNet tiene un 72.9% menos de parámetros. En el conjunto de datos MPII, nuestro método utiliza solo el 60.7% del número de parámetros, obteniendo resultados similares a otros métodos con una CNN como columna vertebral.

Otros recursos que podrían interesarte

Temas Virtualpro