logo móvil
Contáctanos

Transformador de Alineación y Razonamiento Temporal-Semántico para el Aprendizaje Cero con Audio-Visual

Autores: Zhang, Kaiwen; Zhao, Kunchen; Tian, Yunong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Transformador de Alineación y Razonamiento Temporal-Semántico para el Aprendizaje Cero con Audio-Visual


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aprendizaje sin etiquetas
Modelado temporal
Datos multimodales
TSART
Modelado espacio-temporal
GZSL

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones


Descripción
El aprendizaje sin etiquetas (ZSL) permite a los modelos reconocer categorías no encontradas durante el entrenamiento, lo cual es crucial para categorías con datos limitados. Los métodos existentes pasan por alto el modelado temporal eficiente en datos multimodales. Este documento propone un Transformador de Alineación y Razonamiento Temporal-Semántico (TSART) para el modelado espacio-temporal. TSART utiliza la red SeLaVi pre-entrenada para extraer características de audio y visuales y explora la información semántica de estas modalidades a través de codificadores de audio y visuales. Incorpora un módulo de razonamiento de información temporal para mejorar la captura de características temporales en el audio, y un módulo de razonamiento cruzado para integrar efectivamente la información de audio y visual, estableciendo una representación de incrustación conjunta robusta. Nuestros resultados experimentales validan la efectividad de este enfoque, demostrando un rendimiento sobresaliente en el Aprendizaje Generalizado sin Etiquetas (GZSL) en los conjuntos de datos UCF101 Generalized Zero-Shot Learning (UCF-GZSL), VGGSound-GZSL y ActivityNet-GZSL, con mejoras notables en la evaluación de la Media Armónica (HM). Estos resultados indican que TSART tiene un gran potencial para manejar información espacio-temporal compleja y fusión multimodal.

Otros recursos que podrían interesarte

Temas Virtualpro