Las indicaciones de marca de agua y marca registrada aumentan el reconocimiento de acciones en video en modelos visuales de lenguaje
Autores: Jin, Longbin; Jung, Hyuntaek; Jon, Hyo Jin; Kim, Eun Yi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Las indicaciones de marca de agua y marca registrada aumentan el reconocimiento de acciones en video en modelos visuales de lenguaje
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Modelos de lenguaje visual a gran escala
Tareas de reconocimiento de video
Indicaciones de marca de agua
Indicaciones de marca comercial
Datos de video espacio-temporales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Los modelos visuales de lenguaje a gran escala han demostrado una poderosa capacidad de adaptación en tareas de reconocimiento de video. Sin embargo, los métodos existentes suelen depender de ajustes finos o ajustes de indicaciones de texto. En este documento, proponemos un método de indicación visual exclusivamente que emplea indicaciones de marca de agua y de marca comercial para cerrar la brecha de distribución de datos de video espaciotemporales con modelos visuales de lenguaje. Nuestras indicaciones de marca de agua, diseñadas por un generador de indicaciones entrenable, están personalizadas para cada clip de video. A diferencia de las indicaciones visuales convencionales que a menudo muestran señales de ruido, las indicaciones de marca de agua están diseñadas intencionalmente para ser imperceptibles, asegurando que no sean interpretadas como un ataque adversario. Las indicaciones de marca comercial, hechas a medida para cada dominio de video, establecen la identidad de tipos de video específicos. La integración de indicaciones de marca de agua en los fotogramas de video y la adición de indicaciones de marca comercial a los incrustados por fotograma aumenta significativamente la capacidad del modelo visual de lenguaje para entender el video. Notablemente, nuestro enfoque mejora la capacidad de adaptación del modelo CLIP a varios conjuntos de datos de reconocimiento de acciones en video, logrando incrementos de rendimiento del 16,8%, 18,4% y 13,8% en HMDB-51, UCF-101 y el conjunto de datos egocéntrico EPIC-Kitchen-100, respectivamente. Además, nuestro método exclusivamente visual de indicación demuestra un rendimiento competitivo en comparación con los métodos existentes de ajuste fino y adaptación, al tiempo que requiere menos parámetros aprendibles. Además, a través de extensos estudios de abstracción, encontramos el equilibrio óptimo entre imperceptibilidad y adaptabilidad. El código estará disponible.
Descripción
Los modelos visuales de lenguaje a gran escala han demostrado una poderosa capacidad de adaptación en tareas de reconocimiento de video. Sin embargo, los métodos existentes suelen depender de ajustes finos o ajustes de indicaciones de texto. En este documento, proponemos un método de indicación visual exclusivamente que emplea indicaciones de marca de agua y de marca comercial para cerrar la brecha de distribución de datos de video espaciotemporales con modelos visuales de lenguaje. Nuestras indicaciones de marca de agua, diseñadas por un generador de indicaciones entrenable, están personalizadas para cada clip de video. A diferencia de las indicaciones visuales convencionales que a menudo muestran señales de ruido, las indicaciones de marca de agua están diseñadas intencionalmente para ser imperceptibles, asegurando que no sean interpretadas como un ataque adversario. Las indicaciones de marca comercial, hechas a medida para cada dominio de video, establecen la identidad de tipos de video específicos. La integración de indicaciones de marca de agua en los fotogramas de video y la adición de indicaciones de marca comercial a los incrustados por fotograma aumenta significativamente la capacidad del modelo visual de lenguaje para entender el video. Notablemente, nuestro enfoque mejora la capacidad de adaptación del modelo CLIP a varios conjuntos de datos de reconocimiento de acciones en video, logrando incrementos de rendimiento del 16,8%, 18,4% y 13,8% en HMDB-51, UCF-101 y el conjunto de datos egocéntrico EPIC-Kitchen-100, respectivamente. Además, nuestro método exclusivamente visual de indicación demuestra un rendimiento competitivo en comparación con los métodos existentes de ajuste fino y adaptación, al tiempo que requiere menos parámetros aprendibles. Además, a través de extensos estudios de abstracción, encontramos el equilibrio óptimo entre imperceptibilidad y adaptabilidad. El código estará disponible.