Mejorando la robustez de los cambios de punto de vista en el reconocimiento de acciones humanas basado en esqueletos 3D
Autores: Park, Jinyoon; Kim, Chulwoong; Kim, Seung-Chan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorando la robustez de los cambios de punto de vista en el reconocimiento de acciones humanas basado en esqueletos 3D
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Investigación
Basada en esqueleto 3D
Reconocimiento de acciones
Normalización de puntos de vista
Técnica de aumento
Modelos de aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Investigaciones anteriores sobre el reconocimiento de acciones humanas basado en esqueletos 3D han confiado frecuentemente en un proceso de normalización de puntos de vista de forma secuencial, que ajusta las direcciones de visualización de todas las secuencias de acciones segmentadas. Este tipo de enfoque suele demostrar robustez contra las variaciones en el punto de vista encontradas en videos a corto plazo, una característica comúnmente encontrada en conjuntos de datos públicos. Sin embargo, nuestra investigación preliminar de secuencias de acciones complejas, como discusiones o fumar, revela sus limitaciones para capturar las complejidades de tales acciones. Para abordar estos problemas de dependencia de vista, proponemos una técnica de aumento secuencial sencilla pero efectiva. Esta estrategia mejora la robustez de los modelos de reconocimiento de acciones, especialmente contra cambios en la dirección de visualización que ocurren principalmente dentro del plano horizontal (azimut) al rotar los puntos clave humanos alrededor del eje z o del vector de la columna vertebral, creando efectivamente variaciones en las direcciones de visualización. Examinamos la robustez de este enfoque contra variaciones de puntos de vista del mundo real a través de extensos estudios empíricos en múltiples conjuntos de datos públicos, incluido un conjunto adicional de secuencias de acciones personalizadas. A pesar de la simplicidad de nuestro enfoque, nuestros resultados experimentales arrojan consistentemente mejoras en las precisiones de reconocimiento de acciones. En comparación con el método de normalización de puntos de vista de forma secuencial utilizado con modelos avanzados de aprendizaje profundo como Conv1D, LSTM y Transformer, nuestro enfoque mostró un aumento relativo en la precisión del 34.42% para el eje z y del 10.86% para el vector de la columna vertebral.
Descripción
Investigaciones anteriores sobre el reconocimiento de acciones humanas basado en esqueletos 3D han confiado frecuentemente en un proceso de normalización de puntos de vista de forma secuencial, que ajusta las direcciones de visualización de todas las secuencias de acciones segmentadas. Este tipo de enfoque suele demostrar robustez contra las variaciones en el punto de vista encontradas en videos a corto plazo, una característica comúnmente encontrada en conjuntos de datos públicos. Sin embargo, nuestra investigación preliminar de secuencias de acciones complejas, como discusiones o fumar, revela sus limitaciones para capturar las complejidades de tales acciones. Para abordar estos problemas de dependencia de vista, proponemos una técnica de aumento secuencial sencilla pero efectiva. Esta estrategia mejora la robustez de los modelos de reconocimiento de acciones, especialmente contra cambios en la dirección de visualización que ocurren principalmente dentro del plano horizontal (azimut) al rotar los puntos clave humanos alrededor del eje z o del vector de la columna vertebral, creando efectivamente variaciones en las direcciones de visualización. Examinamos la robustez de este enfoque contra variaciones de puntos de vista del mundo real a través de extensos estudios empíricos en múltiples conjuntos de datos públicos, incluido un conjunto adicional de secuencias de acciones personalizadas. A pesar de la simplicidad de nuestro enfoque, nuestros resultados experimentales arrojan consistentemente mejoras en las precisiones de reconocimiento de acciones. En comparación con el método de normalización de puntos de vista de forma secuencial utilizado con modelos avanzados de aprendizaje profundo como Conv1D, LSTM y Transformer, nuestro enfoque mostró un aumento relativo en la precisión del 34.42% para el eje z y del 10.86% para el vector de la columna vertebral.