Avanzando la localización de acciones temporales con una red de conciencia de límites
Autores: Gu, Jialiang; Yi, Yang; Wang, Min
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Avanzando la localización de acciones temporales con una red de conciencia de límites
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Localización de acción
Temporal
Red de conciencia de límites
Módulo de límites gaussiano
THUMOS14
ActivityNet v1.3
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
La localización temporal de acciones (TAL) es crucial en el análisis de videos, pero presenta desafíos notables. Este proceso se enfoca en la identificación precisa y categorización de instancias de acción dentro de videos extensos y en bruto. Una dificultad clave en TAL radica en determinar los puntos exactos de inicio y finalización de acciones, debido a los límites a menudo poco claros de estas acciones en imágenes del mundo real. Los métodos existentes tienden a no tener suficientemente en cuenta los cambios en las características de los límites de acción. Para abordar estos problemas, proponemos una red de conciencia de límites (BAN) para TAL. Específicamente, el BAN consiste principalmente en una red de codificación de características, detección piramidal gruesa para obtener propuestas preliminares y categorías de acciones, y detección detallada con un módulo de límite gaussiano (GBM) para obtener información de límites más valiosa. El GBM contiene un novedoso agrupamiento de límites gaussiano, que sirve para agregar las características relevantes de los límites de acción y capturar características discriminativas de límites y acción. Además, introducimos un enfoque novedoso llamado Aprendizaje Diferenciado de Límites (BDL) para garantizar la capacidad de nuestro modelo para identificar con precisión los límites de acción en propuestas diversas. Experimentos exhaustivos en los conjuntos de datos THUMOS14 y ActivityNet v1.3, donde nuestro modelo BAN logró un aumento en la Precisión Promedio (mAP) en un 1.6% y 0.2%, respectivamente, sobre los métodos existentes de última generación, ilustran que nuestro enfoque no solo mejora el estado del arte actual sino que también logra un rendimiento sobresaliente.
Descripción
La localización temporal de acciones (TAL) es crucial en el análisis de videos, pero presenta desafíos notables. Este proceso se enfoca en la identificación precisa y categorización de instancias de acción dentro de videos extensos y en bruto. Una dificultad clave en TAL radica en determinar los puntos exactos de inicio y finalización de acciones, debido a los límites a menudo poco claros de estas acciones en imágenes del mundo real. Los métodos existentes tienden a no tener suficientemente en cuenta los cambios en las características de los límites de acción. Para abordar estos problemas, proponemos una red de conciencia de límites (BAN) para TAL. Específicamente, el BAN consiste principalmente en una red de codificación de características, detección piramidal gruesa para obtener propuestas preliminares y categorías de acciones, y detección detallada con un módulo de límite gaussiano (GBM) para obtener información de límites más valiosa. El GBM contiene un novedoso agrupamiento de límites gaussiano, que sirve para agregar las características relevantes de los límites de acción y capturar características discriminativas de límites y acción. Además, introducimos un enfoque novedoso llamado Aprendizaje Diferenciado de Límites (BDL) para garantizar la capacidad de nuestro modelo para identificar con precisión los límites de acción en propuestas diversas. Experimentos exhaustivos en los conjuntos de datos THUMOS14 y ActivityNet v1.3, donde nuestro modelo BAN logró un aumento en la Precisión Promedio (mAP) en un 1.6% y 0.2%, respectivamente, sobre los métodos existentes de última generación, ilustran que nuestro enfoque no solo mejora el estado del arte actual sino que también logra un rendimiento sobresaliente.