Otm-hc: representación mejorada de acciones basada en esqueleto a través de aprendizaje contrastivo jerárquico uno a muchos
Autores: Usman, Muhammad; Cao, Wenming; Huang, Zhao; Zhong, Jianqi; Ji, Ruiya
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Otm-hc: representación mejorada de acciones basada en esqueleto a través de aprendizaje contrastivo jerárquico uno a muchos
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Propuesto
Aprendizaje contrastivo jerárquico
Marco OTM-HC
Representaciones de acción
Codificadores transformadores Seq2Seq
Rendimiento mejorado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
El reconocimiento de acciones humanas se ha vuelto crucial en la visión por computadora, con crecientes aplicaciones en vigilancia, interacción humano-computadora y salud. Los enfoques tradicionales a menudo utilizan representaciones de características amplias, que pueden pasar por alto variaciones sutiles en el tiempo y el movimiento dentro de secuencias de acciones. Nuestro marco propuesto de Aprendizaje Contrastivo Jerárquico Uno a Muchos (OTM-HC) mapea la entrada en vectores de características de múltiples capas, creando una representación de contraste jerárquica que captura varias granularidades dentro de una secuencia temporal y espacial de esqueleto humano. Mediante codificadores transformadores de secuencia a secuencia (Seq2Seq) y módulos de submuestreo, OTM-HC puede distinguir entre múltiples niveles de representaciones de acciones, como instancias, dominios, clips y niveles de partes. Cada nivel contribuye significativamente a una comprensión integral de las representaciones de acciones. El diseño del modelo OTM-HC es adaptable, asegurando una integración fluida con codificadores avanzados de Seq2Seq. Probamos el marco OTM-HC en cuatro conjuntos de datos, demostrando un rendimiento mejorado sobre modelos de última generación. Específicamente, OTM-HC logró mejoras del 0.9% y 0.6% en NTU60, 0.4% y 0.7% en NTU120, y 0.7% y 0.3% en PKU-MMD I y II, respectivamente, superando enfoques líderes anteriores en estos conjuntos de datos. Estos resultados muestran la robustez y adaptabilidad de nuestro modelo para diversas tareas de reconocimiento de acciones basadas en esqueletos.
Descripción
El reconocimiento de acciones humanas se ha vuelto crucial en la visión por computadora, con crecientes aplicaciones en vigilancia, interacción humano-computadora y salud. Los enfoques tradicionales a menudo utilizan representaciones de características amplias, que pueden pasar por alto variaciones sutiles en el tiempo y el movimiento dentro de secuencias de acciones. Nuestro marco propuesto de Aprendizaje Contrastivo Jerárquico Uno a Muchos (OTM-HC) mapea la entrada en vectores de características de múltiples capas, creando una representación de contraste jerárquica que captura varias granularidades dentro de una secuencia temporal y espacial de esqueleto humano. Mediante codificadores transformadores de secuencia a secuencia (Seq2Seq) y módulos de submuestreo, OTM-HC puede distinguir entre múltiples niveles de representaciones de acciones, como instancias, dominios, clips y niveles de partes. Cada nivel contribuye significativamente a una comprensión integral de las representaciones de acciones. El diseño del modelo OTM-HC es adaptable, asegurando una integración fluida con codificadores avanzados de Seq2Seq. Probamos el marco OTM-HC en cuatro conjuntos de datos, demostrando un rendimiento mejorado sobre modelos de última generación. Específicamente, OTM-HC logró mejoras del 0.9% y 0.6% en NTU60, 0.4% y 0.7% en NTU120, y 0.7% y 0.3% en PKU-MMD I y II, respectivamente, superando enfoques líderes anteriores en estos conjuntos de datos. Estos resultados muestran la robustez y adaptabilidad de nuestro modelo para diversas tareas de reconocimiento de acciones basadas en esqueletos.