MLA-LSTM: Un modelo de aprendizaje LSTM de atención local y global para la puntuación del patinaje artístico
Autores: Han, Chaoyu; Shen, Fangyao; Chen, Lina; Lian, Xiaoyi; Gou, Hongjie; Gao, Hong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
MLA-LSTM: Un modelo de aprendizaje LSTM de atención local y global para la puntuación del patinaje artístico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Puntuación basada en video
Redes neuronales
Extractores de características
Duración del clip
Información de ubicación
LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 53
Citaciones: Sin citaciones
La puntuación basada en video utilizando redes neuronales es un medio muy importante para evaluar muchos deportes, especialmente el patinaje artístico. Aunque se han propuesto muchos métodos para evaluar la calidad de la acción, no hay una conclusión uniforme sobre el mejor extractor de características y la longitud del clip para los métodos existentes. Además, durante la etapa de agregación de características, estos métodos no pueden localizar con precisión la información objetivo. Para abordar estas tareas, en primer lugar, comparamos sistemáticamente los efectos del modelo de patinaje artístico con tres extractores de características diferentes (C3D, I3D, R3D) y cuatro longitudes de segmento diferentes (5, 8, 16, 32). En segundo lugar, proponemos un Módulo de Atención de Localización Multi-escala (MS-LAM) para capturar la información de ubicación de los atletas en diferentes fotogramas de video. Finalmente, presentamos un novedoso Memoria a Largo y Corto Plazo Atenta de Localización Multi-escala (MLA-LSTM), que puede aprender de manera eficiente la información de secuencia local y global en cada video. Además, nuestro modelo propuesto ha sido validado en los conjuntos de datos Fis-V y MIT-Skate. Los resultados experimentales muestran que I3D y 32 fotogramas por segundo son el mejor extractor de características y longitud de clip para tareas de puntuación de video. Además, nuestro modelo supera al método actual de vanguardia, la red de atención consciente del contexto híbrido dinámico-estático (ACTION-NET), especialmente en MIT-Skate (por 0.069 en la correlación de rango de Spearman). Además, logra mejoras promedio de 0.059 en Fis-V en comparación con el Módulo LSTM Auto-atento de Convolución Multi-escala (MS-LSTM). Esto demuestra la efectividad de nuestros modelos en el aprendizaje para puntuar videos de patinaje artístico.
Descripción
La puntuación basada en video utilizando redes neuronales es un medio muy importante para evaluar muchos deportes, especialmente el patinaje artístico. Aunque se han propuesto muchos métodos para evaluar la calidad de la acción, no hay una conclusión uniforme sobre el mejor extractor de características y la longitud del clip para los métodos existentes. Además, durante la etapa de agregación de características, estos métodos no pueden localizar con precisión la información objetivo. Para abordar estas tareas, en primer lugar, comparamos sistemáticamente los efectos del modelo de patinaje artístico con tres extractores de características diferentes (C3D, I3D, R3D) y cuatro longitudes de segmento diferentes (5, 8, 16, 32). En segundo lugar, proponemos un Módulo de Atención de Localización Multi-escala (MS-LAM) para capturar la información de ubicación de los atletas en diferentes fotogramas de video. Finalmente, presentamos un novedoso Memoria a Largo y Corto Plazo Atenta de Localización Multi-escala (MLA-LSTM), que puede aprender de manera eficiente la información de secuencia local y global en cada video. Además, nuestro modelo propuesto ha sido validado en los conjuntos de datos Fis-V y MIT-Skate. Los resultados experimentales muestran que I3D y 32 fotogramas por segundo son el mejor extractor de características y longitud de clip para tareas de puntuación de video. Además, nuestro modelo supera al método actual de vanguardia, la red de atención consciente del contexto híbrido dinámico-estático (ACTION-NET), especialmente en MIT-Skate (por 0.069 en la correlación de rango de Spearman). Además, logra mejoras promedio de 0.059 en Fis-V en comparación con el Módulo LSTM Auto-atento de Convolución Multi-escala (MS-LSTM). Esto demuestra la efectividad de nuestros modelos en el aprendizaje para puntuar videos de patinaje artístico.