logo móvil
Contáctanos

Las indicaciones de marca de agua y marca registrada aumentan el reconocimiento de acciones en video en modelos visuales de lenguaje

Autores: Jin, Longbin; Jung, Hyuntaek; Jon, Hyo Jin; Kim, Eun Yi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Las indicaciones de marca de agua y marca registrada aumentan el reconocimiento de acciones en video en modelos visuales de lenguaje


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Modelos de lenguaje visual a gran escala
Tareas de reconocimiento de video
Indicaciones de marca de agua
Indicaciones de marca comercial
Datos de video espacio-temporales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Los modelos visuales de lenguaje a gran escala han demostrado una poderosa capacidad de adaptación en tareas de reconocimiento de video. Sin embargo, los métodos existentes suelen depender de ajustes finos o ajustes de indicaciones de texto. En este documento, proponemos un método de indicación visual exclusivamente que emplea indicaciones de marca de agua y de marca comercial para cerrar la brecha de distribución de datos de video espaciotemporales con modelos visuales de lenguaje. Nuestras indicaciones de marca de agua, diseñadas por un generador de indicaciones entrenable, están personalizadas para cada clip de video. A diferencia de las indicaciones visuales convencionales que a menudo muestran señales de ruido, las indicaciones de marca de agua están diseñadas intencionalmente para ser imperceptibles, asegurando que no sean interpretadas como un ataque adversario. Las indicaciones de marca comercial, hechas a medida para cada dominio de video, establecen la identidad de tipos de video específicos. La integración de indicaciones de marca de agua en los fotogramas de video y la adición de indicaciones de marca comercial a los incrustados por fotograma aumenta significativamente la capacidad del modelo visual de lenguaje para entender el video. Notablemente, nuestro enfoque mejora la capacidad de adaptación del modelo CLIP a varios conjuntos de datos de reconocimiento de acciones en video, logrando incrementos de rendimiento del 16,8%, 18,4% y 13,8% en HMDB-51, UCF-101 y el conjunto de datos egocéntrico EPIC-Kitchen-100, respectivamente. Además, nuestro método exclusivamente visual de indicación demuestra un rendimiento competitivo en comparación con los métodos existentes de ajuste fino y adaptación, al tiempo que requiere menos parámetros aprendibles. Además, a través de extensos estudios de abstracción, encontramos el equilibrio óptimo entre imperceptibilidad y adaptabilidad. El código estará disponible.

Otros recursos que podrían interesarte

Temas Virtualpro