logo móvil
Contáctanos

Reconocimiento de acción en videos a través de una técnica basada en transfer learning

Autores: López-Lozada, Elizabeth; Sossa, Humberto; Rubio-Espino, Elsa; Montiel-Pérez, Jesús Yaljá

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Reconocimiento de acción en videos a través de una técnica basada en transfer learning


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Visión por computadora
Reconocimiento de acciones humanas
Aprendizaje profundo
Análisis de movimiento
Técnicas de transfer-learning
Extracción de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones


Descripción
En visión por computadora, el reconocimiento de acciones humanas es un tema candente, popularizado por el desarrollo del aprendizaje profundo. Los modelos de aprendizaje profundo típicamente aceptan entrada de video sin procesamiento previo y los entrenan para lograr el reconocimiento. Sin embargo, llevar a cabo un análisis preliminar de movimiento puede ser beneficioso para dirigir el entrenamiento del modelo a priorizar el movimiento de individuos con menos prioridad para el entorno en el que ocurre la acción. Este documento presenta una metodología novedosa para el reconocimiento de acciones humanas basada en información de movimiento que emplea técnicas de transferencia de aprendizaje. El método propuesto consta de cuatro etapas: (1) detección y seguimiento de humanos, (2) estimación de movimiento, (3) extracción de características y (4) reconocimiento de acciones utilizando un modelo de dos flujos. Para desarrollar este trabajo, se utilizó un conjunto de datos personalizado, que comprende videos de acciones diversas (por ejemplo, caminar, correr, andar en bicicleta, beber y caer) extraídos de múltiples fuentes públicas y sitios web, incluidos Pexels y MixKit. Este conjunto de datos realista y diverso permitió una evaluación exhaustiva del método propuesto, demostrando su efectividad en diferentes escenarios y condiciones. Además, se evaluó el rendimiento de siete modelos pre-entrenados para la extracción de características. Los modelos analizados fueron Inception-v3, MobileNet-v2, MobileNet-v3-L, VGG-16, VGG-19, Xception y ConvNeXt-L. Los resultados demostraron que el modelo ConvNeXt-L produjo los resultados más óptimos. Además, el uso de modelos pre-entrenados para la extracción de características facilitó el proceso de entrenamiento en una computadora personal con una sola unidad de procesamiento gráfico, logrando una precisión del 94.9%. Los hallazgos experimentales y resultados sugieren que la integración de información de movimiento mejora el rendimiento del reconocimiento de acciones.

Otros recursos que podrían interesarte

Temas Virtualpro