Mejorando el reconocimiento de acciones humanas con datos de esqueleto 3D: un estudio exhaustivo sobre aprendizaje profundo y aumento de datos
Autores: Xin, Chu; Kim, Seokhwan; Cho, Yongjoo; Park, Kyoung Shin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mejorando el reconocimiento de acciones humanas con datos de esqueleto 3D: un estudio exhaustivo sobre aprendizaje profundo y aumento de datos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de acciones humanas
Técnicas de aumento de datos
Modelos de aprendizaje profundo
Datos esqueléticos
Aumento espacial
Aumento temporal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
El Reconocimiento de Acciones Humanas (HAR) es un campo importante que identifica el comportamiento humano a través de datos de sensores. Los datos tridimensionales del esqueleto humano extraídos del sensor de profundidad Kinect han surgido como una alternativa poderosa para mitigar los efectos de iluminación y oclusión de HAR basado en imágenes tradicionales en 2D RGB o en escala de grises. La ampliación de datos es una técnica clave para mejorar la generalización y robustez del modelo en el aprendizaje profundo, al tiempo que suprime el sobreajuste a los datos de entrenamiento. En este documento, realizamos un estudio exhaustivo de varias técnicas de aumento de datos específicas para datos esqueléticos, que tienen como objetivo mejorar la precisión de los modelos de aprendizaje profundo. Estos métodos de aumento incluyen la ampliación espacial, que genera muestras aumentadas a partir de la secuencia original del esqueleto 3D, y la ampliación temporal, que está diseñada para capturar cambios temporales sutiles en el movimiento. La evaluación cubre dos conjuntos de datos públicos y uno propietario y emplea tres modelos de redes neuronales. Los resultados destacan el impacto de la ampliación temporal en el rendimiento del modelo en los conjuntos de datos del esqueleto, al tiempo que muestran el impacto matizado de la ampliación espacial. Los hallazgos subrayan la importancia de adaptar estrategias de ampliación a las características específicas del conjunto de datos y las acciones, proporcionando perspectivas novedosas para la selección de modelos en tareas de reconocimiento de acciones humanas basadas en el esqueleto.
Descripción
El Reconocimiento de Acciones Humanas (HAR) es un campo importante que identifica el comportamiento humano a través de datos de sensores. Los datos tridimensionales del esqueleto humano extraídos del sensor de profundidad Kinect han surgido como una alternativa poderosa para mitigar los efectos de iluminación y oclusión de HAR basado en imágenes tradicionales en 2D RGB o en escala de grises. La ampliación de datos es una técnica clave para mejorar la generalización y robustez del modelo en el aprendizaje profundo, al tiempo que suprime el sobreajuste a los datos de entrenamiento. En este documento, realizamos un estudio exhaustivo de varias técnicas de aumento de datos específicas para datos esqueléticos, que tienen como objetivo mejorar la precisión de los modelos de aprendizaje profundo. Estos métodos de aumento incluyen la ampliación espacial, que genera muestras aumentadas a partir de la secuencia original del esqueleto 3D, y la ampliación temporal, que está diseñada para capturar cambios temporales sutiles en el movimiento. La evaluación cubre dos conjuntos de datos públicos y uno propietario y emplea tres modelos de redes neuronales. Los resultados destacan el impacto de la ampliación temporal en el rendimiento del modelo en los conjuntos de datos del esqueleto, al tiempo que muestran el impacto matizado de la ampliación espacial. Los hallazgos subrayan la importancia de adaptar estrategias de ampliación a las características específicas del conjunto de datos y las acciones, proporcionando perspectivas novedosas para la selección de modelos en tareas de reconocimiento de acciones humanas basadas en el esqueleto.