Transformador de Alineación y Razonamiento Temporal-Semántico para el Aprendizaje Cero con Audio-Visual
Autores: Zhang, Kaiwen; Zhao, Kunchen; Tian, Yunong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Transformador de Alineación y Razonamiento Temporal-Semántico para el Aprendizaje Cero con Audio-Visual
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje sin etiquetas
Modelado temporal
Datos multimodales
TSART
Modelado espacio-temporal
GZSL
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
El aprendizaje sin etiquetas (ZSL) permite a los modelos reconocer categorías no encontradas durante el entrenamiento, lo cual es crucial para categorías con datos limitados. Los métodos existentes pasan por alto el modelado temporal eficiente en datos multimodales. Este documento propone un Transformador de Alineación y Razonamiento Temporal-Semántico (TSART) para el modelado espacio-temporal. TSART utiliza la red SeLaVi pre-entrenada para extraer características de audio y visuales y explora la información semántica de estas modalidades a través de codificadores de audio y visuales. Incorpora un módulo de razonamiento de información temporal para mejorar la captura de características temporales en el audio, y un módulo de razonamiento cruzado para integrar efectivamente la información de audio y visual, estableciendo una representación de incrustación conjunta robusta. Nuestros resultados experimentales validan la efectividad de este enfoque, demostrando un rendimiento sobresaliente en el Aprendizaje Generalizado sin Etiquetas (GZSL) en los conjuntos de datos UCF101 Generalized Zero-Shot Learning (UCF-GZSL), VGGSound-GZSL y ActivityNet-GZSL, con mejoras notables en la evaluación de la Media Armónica (HM). Estos resultados indican que TSART tiene un gran potencial para manejar información espacio-temporal compleja y fusión multimodal.
Descripción
El aprendizaje sin etiquetas (ZSL) permite a los modelos reconocer categorías no encontradas durante el entrenamiento, lo cual es crucial para categorías con datos limitados. Los métodos existentes pasan por alto el modelado temporal eficiente en datos multimodales. Este documento propone un Transformador de Alineación y Razonamiento Temporal-Semántico (TSART) para el modelado espacio-temporal. TSART utiliza la red SeLaVi pre-entrenada para extraer características de audio y visuales y explora la información semántica de estas modalidades a través de codificadores de audio y visuales. Incorpora un módulo de razonamiento de información temporal para mejorar la captura de características temporales en el audio, y un módulo de razonamiento cruzado para integrar efectivamente la información de audio y visual, estableciendo una representación de incrustación conjunta robusta. Nuestros resultados experimentales validan la efectividad de este enfoque, demostrando un rendimiento sobresaliente en el Aprendizaje Generalizado sin Etiquetas (GZSL) en los conjuntos de datos UCF101 Generalized Zero-Shot Learning (UCF-GZSL), VGGSound-GZSL y ActivityNet-GZSL, con mejoras notables en la evaluación de la Media Armónica (HM). Estos resultados indican que TSART tiene un gran potencial para manejar información espacio-temporal compleja y fusión multimodal.