Transformador de Alineación y Razonamiento Temporal-Semántico para el Aprendizaje Cero con Audio-Visual

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Transformador de Alineación y Razonamiento Temporal-Semántico para el Aprendizaje Cero con Audio-Visual

Autores: Zhang, Kaiwen; Zhao, Kunchen; Tian, Yunong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Transformador de Alineación y Razonamiento Temporal-Semántico para el Aprendizaje Cero con Audio-Visual

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aprendizaje sin etiquetas

Modelado temporal

Datos multimodales

TSART

Modelado espacio-temporal

GZSL

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones

El aprendizaje sin etiquetas (ZSL) permite a los modelos reconocer categorías no encontradas durante el entrenamiento, lo cual es crucial para categorías con datos limitados. Los métodos existentes pasan por alto el modelado temporal eficiente en datos multimodales. Este documento propone un Transformador de Alineación y Razonamiento Temporal-Semántico (TSART) para el modelado espacio-temporal. TSART utiliza la red SeLaVi pre-entrenada para extraer características de audio y visuales y explora la información semántica de estas modalidades a través de codificadores de audio y visuales. Incorpora un módulo de razonamiento de información temporal para mejorar la captura de características temporales en el audio, y un módulo de razonamiento cruzado para integrar efectivamente la información de audio y visual, estableciendo una representación de incrustación conjunta robusta. Nuestros resultados experimentales validan la efectividad de este enfoque, demostrando un rendimiento sobresaliente en el Aprendizaje Generalizado sin Etiquetas (GZSL) en los conjuntos de datos UCF101 Generalized Zero-Shot Learning (UCF-GZSL), VGGSound-GZSL y ActivityNet-GZSL, con mejoras notables en la evaluación de la Media Armónica (HM). Estos resultados indican que TSART tiene un gran potencial para manejar información espacio-temporal compleja y fusión multimodal.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro