Tbrnet: red de residuos bilstm de dos flujos para el reconocimiento de acciones en video
Autores: Wu, Xiao; Ji, Qingge
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Tbrnet: red de residuos bilstm de dos flujos para el reconocimiento de acciones en video
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Representaciones espacio-temporales
Reconocimiento de acciones en video
Dependencias temporales globales
Marco codificador-decodificador
Red Residual de Memoria a Corto y Largo Plazo Bidireccional de Dos Flujos (TBRNet)
Red convolucional residual 3D (Res-C3D)
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
La modelización de representaciones espacio-temporales es uno de los problemas más esenciales pero desafiantes en el reconocimiento de acciones en videos. Los métodos existentes carecen de la capacidad de modelar con precisión las correlaciones entre las características espaciales y temporales o las dependencias temporales globales. Inspirados por la red de dos flujos para el reconocimiento de acciones en videos, proponemos un marco codificador-decodificador llamado Red Residual de Memoria a Corto y Largo Plazo Bidireccional de Dos Flujos (TBRNet) que aprovecha la interacción entre las representaciones espacio-temporales y las dependencias temporales globales. En la fase de codificación, la arquitectura de dos flujos, basada en la red Residual Convolucional 3D propuesta (Res-C3D), extrae características con conexiones residuales insertadas entre las dos vías, y luego las características se fusionan para convertirse en las características espacio-temporales a corto plazo del codificador. En la fase de decodificación, esas características espacio-temporales a corto plazo se alimentan primero en una red BiLSTM bidireccional basada en atención temporal para obtener dependencias de agrupamiento de atención bidireccional a largo plazo. Posteriormente, esas dependencias temporales se integran con las características espacio-temporales a corto plazo para obtener relaciones espacio-temporales globales. En dos conjuntos de datos de referencia, UCF101 y HMDB51, verificamos la efectividad de nuestro TBRNet propuesto mediante una serie de experimentos, y obtuvo resultados competitivos o incluso mejores en comparación con enfoques existentes de última generación.
Descripción
La modelización de representaciones espacio-temporales es uno de los problemas más esenciales pero desafiantes en el reconocimiento de acciones en videos. Los métodos existentes carecen de la capacidad de modelar con precisión las correlaciones entre las características espaciales y temporales o las dependencias temporales globales. Inspirados por la red de dos flujos para el reconocimiento de acciones en videos, proponemos un marco codificador-decodificador llamado Red Residual de Memoria a Corto y Largo Plazo Bidireccional de Dos Flujos (TBRNet) que aprovecha la interacción entre las representaciones espacio-temporales y las dependencias temporales globales. En la fase de codificación, la arquitectura de dos flujos, basada en la red Residual Convolucional 3D propuesta (Res-C3D), extrae características con conexiones residuales insertadas entre las dos vías, y luego las características se fusionan para convertirse en las características espacio-temporales a corto plazo del codificador. En la fase de decodificación, esas características espacio-temporales a corto plazo se alimentan primero en una red BiLSTM bidireccional basada en atención temporal para obtener dependencias de agrupamiento de atención bidireccional a largo plazo. Posteriormente, esas dependencias temporales se integran con las características espacio-temporales a corto plazo para obtener relaciones espacio-temporales globales. En dos conjuntos de datos de referencia, UCF101 y HMDB51, verificamos la efectividad de nuestro TBRNet propuesto mediante una serie de experimentos, y obtuvo resultados competitivos o incluso mejores en comparación con enfoques existentes de última generación.