Rcat: adaptador de clip retentivo para ajuste mejorado de reconocimiento de video
Autores: Xie, Zexun; Xu, Min; Zhang, Shudong; Zhou, Lijuan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Rcat: adaptador de clip retentivo para ajuste mejorado de reconocimiento de video
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Análisis temporal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
El advenimiento de los modelos de Pre-entrenamiento de Lenguaje-Imagen Contrastivo (CLIP) ha revolucionado la integración de representaciones textuales y visuales, mejorando significativamente la interpretación de imágenes estáticas. Sin embargo, su aplicación al reconocimiento de videos plantea desafíos únicos debido a la dinámica inherente y la naturaleza multimodal del contenido de video, que incluye cambios temporales y detalles espaciales más allá de las capacidades de los modelos CLIP tradicionales. Estos desafíos requieren un enfoque avanzado capaz de comprender la compleja interacción entre las dimensiones espaciales y temporales de los datos de video. Con este fin, este estudio introduce un enfoque innovador, Ajuste de Adaptador Retentivo CLIP (RCAT), que potencia las fortalezas fundamentales de CLIP con la capacidad de procesamiento dinámico de una Red Retentiva (RetNet). Diseñado específicamente para refinar la aplicabilidad de CLIP al reconocimiento de videos, RCAT facilita una comprensión matizada de secuencias de video mediante el análisis temporal. En el centro de RCAT se encuentra su mecanismo especializado de ajuste de adaptador, que modifica el modelo CLIP para alinearse mejor con las complejidades temporales y detalles espaciales del contenido de video, mejorando así la precisión predictiva y la profundidad interpretativa del modelo. Nuestras evaluaciones exhaustivas en conjuntos de datos de referencia, incluidos UCF101, HMDB51 y MSR-VTT, subrayan la efectividad de RCAT. Nuestro enfoque propuesto logra mejoras notables en precisión del 1,4% en UCF101, 2,6% en HMDB51 y 1,1% en MSR-VTT en comparación con modelos existentes, ilustrando su rendimiento superior y adaptabilidad en el contexto de tareas de reconocimiento de videos.
Descripción
El advenimiento de los modelos de Pre-entrenamiento de Lenguaje-Imagen Contrastivo (CLIP) ha revolucionado la integración de representaciones textuales y visuales, mejorando significativamente la interpretación de imágenes estáticas. Sin embargo, su aplicación al reconocimiento de videos plantea desafíos únicos debido a la dinámica inherente y la naturaleza multimodal del contenido de video, que incluye cambios temporales y detalles espaciales más allá de las capacidades de los modelos CLIP tradicionales. Estos desafíos requieren un enfoque avanzado capaz de comprender la compleja interacción entre las dimensiones espaciales y temporales de los datos de video. Con este fin, este estudio introduce un enfoque innovador, Ajuste de Adaptador Retentivo CLIP (RCAT), que potencia las fortalezas fundamentales de CLIP con la capacidad de procesamiento dinámico de una Red Retentiva (RetNet). Diseñado específicamente para refinar la aplicabilidad de CLIP al reconocimiento de videos, RCAT facilita una comprensión matizada de secuencias de video mediante el análisis temporal. En el centro de RCAT se encuentra su mecanismo especializado de ajuste de adaptador, que modifica el modelo CLIP para alinearse mejor con las complejidades temporales y detalles espaciales del contenido de video, mejorando así la precisión predictiva y la profundidad interpretativa del modelo. Nuestras evaluaciones exhaustivas en conjuntos de datos de referencia, incluidos UCF101, HMDB51 y MSR-VTT, subrayan la efectividad de RCAT. Nuestro enfoque propuesto logra mejoras notables en precisión del 1,4% en UCF101, 2,6% en HMDB51 y 1,1% en MSR-VTT en comparación con modelos existentes, ilustrando su rendimiento superior y adaptabilidad en el contexto de tareas de reconocimiento de videos.