logo móvil
Contáctanos

Rcat: adaptador de clip retentivo para ajuste mejorado de reconocimiento de video

Autores: Xie, Zexun; Xu, Min; Zhang, Shudong; Zhou, Lijuan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Rcat: adaptador de clip retentivo para ajuste mejorado de reconocimiento de video


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Análisis temporal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
El advenimiento de los modelos de Pre-entrenamiento de Lenguaje-Imagen Contrastivo (CLIP) ha revolucionado la integración de representaciones textuales y visuales, mejorando significativamente la interpretación de imágenes estáticas. Sin embargo, su aplicación al reconocimiento de videos plantea desafíos únicos debido a la dinámica inherente y la naturaleza multimodal del contenido de video, que incluye cambios temporales y detalles espaciales más allá de las capacidades de los modelos CLIP tradicionales. Estos desafíos requieren un enfoque avanzado capaz de comprender la compleja interacción entre las dimensiones espaciales y temporales de los datos de video. Con este fin, este estudio introduce un enfoque innovador, Ajuste de Adaptador Retentivo CLIP (RCAT), que potencia las fortalezas fundamentales de CLIP con la capacidad de procesamiento dinámico de una Red Retentiva (RetNet). Diseñado específicamente para refinar la aplicabilidad de CLIP al reconocimiento de videos, RCAT facilita una comprensión matizada de secuencias de video mediante el análisis temporal. En el centro de RCAT se encuentra su mecanismo especializado de ajuste de adaptador, que modifica el modelo CLIP para alinearse mejor con las complejidades temporales y detalles espaciales del contenido de video, mejorando así la precisión predictiva y la profundidad interpretativa del modelo. Nuestras evaluaciones exhaustivas en conjuntos de datos de referencia, incluidos UCF101, HMDB51 y MSR-VTT, subrayan la efectividad de RCAT. Nuestro enfoque propuesto logra mejoras notables en precisión del 1,4% en UCF101, 2,6% en HMDB51 y 1,1% en MSR-VTT en comparación con modelos existentes, ilustrando su rendimiento superior y adaptabilidad en el contexto de tareas de reconocimiento de videos.

Otros recursos que podrían interesarte

Temas Virtualpro