logo móvil
Contáctanos

MLA-LSTM: Un modelo de aprendizaje LSTM de atención local y global para la puntuación del patinaje artístico

Autores: Han, Chaoyu; Shen, Fangyao; Chen, Lina; Lian, Xiaoyi; Gou, Hongjie; Gao, Hong

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

MLA-LSTM: Un modelo de aprendizaje LSTM de atención local y global para la puntuación del patinaje artístico


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Puntuación basada en video
Redes neuronales
Extractores de características
Duración del clip
Información de ubicación
LSTM

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 53

Citaciones: Sin citaciones


Descripción
La puntuación basada en video utilizando redes neuronales es un medio muy importante para evaluar muchos deportes, especialmente el patinaje artístico. Aunque se han propuesto muchos métodos para evaluar la calidad de la acción, no hay una conclusión uniforme sobre el mejor extractor de características y la longitud del clip para los métodos existentes. Además, durante la etapa de agregación de características, estos métodos no pueden localizar con precisión la información objetivo. Para abordar estas tareas, en primer lugar, comparamos sistemáticamente los efectos del modelo de patinaje artístico con tres extractores de características diferentes (C3D, I3D, R3D) y cuatro longitudes de segmento diferentes (5, 8, 16, 32). En segundo lugar, proponemos un Módulo de Atención de Localización Multi-escala (MS-LAM) para capturar la información de ubicación de los atletas en diferentes fotogramas de video. Finalmente, presentamos un novedoso Memoria a Largo y Corto Plazo Atenta de Localización Multi-escala (MLA-LSTM), que puede aprender de manera eficiente la información de secuencia local y global en cada video. Además, nuestro modelo propuesto ha sido validado en los conjuntos de datos Fis-V y MIT-Skate. Los resultados experimentales muestran que I3D y 32 fotogramas por segundo son el mejor extractor de características y longitud de clip para tareas de puntuación de video. Además, nuestro modelo supera al método actual de vanguardia, la red de atención consciente del contexto híbrido dinámico-estático (ACTION-NET), especialmente en MIT-Skate (por 0.069 en la correlación de rango de Spearman). Además, logra mejoras promedio de 0.059 en Fis-V en comparación con el Módulo LSTM Auto-atento de Convolución Multi-escala (MS-LSTM). Esto demuestra la efectividad de nuestros modelos en el aprendizaje para puntuar videos de patinaje artístico.

Otros recursos que podrían interesarte

Temas Virtualpro