Las indicaciones de marca de agua y marca registrada aumentan el reconocimiento de acciones en video en modelos visuales de lenguaje

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Las indicaciones de marca de agua y marca registrada aumentan el reconocimiento de acciones en video en modelos visuales de lenguaje

Autores: Jin, Longbin; Jung, Hyuntaek; Jon, Hyo Jin; Kim, Eun Yi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Las indicaciones de marca de agua y marca registrada aumentan el reconocimiento de acciones en video en modelos visuales de lenguaje

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Modelos de lenguaje visual a gran escala

Tareas de reconocimiento de video

Indicaciones de marca de agua

Indicaciones de marca comercial

Datos de video espacio-temporales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones

Los modelos visuales de lenguaje a gran escala han demostrado una poderosa capacidad de adaptación en tareas de reconocimiento de video. Sin embargo, los métodos existentes suelen depender de ajustes finos o ajustes de indicaciones de texto. En este documento, proponemos un método de indicación visual exclusivamente que emplea indicaciones de marca de agua y de marca comercial para cerrar la brecha de distribución de datos de video espaciotemporales con modelos visuales de lenguaje. Nuestras indicaciones de marca de agua, diseñadas por un generador de indicaciones entrenable, están personalizadas para cada clip de video. A diferencia de las indicaciones visuales convencionales que a menudo muestran señales de ruido, las indicaciones de marca de agua están diseñadas intencionalmente para ser imperceptibles, asegurando que no sean interpretadas como un ataque adversario. Las indicaciones de marca comercial, hechas a medida para cada dominio de video, establecen la identidad de tipos de video específicos. La integración de indicaciones de marca de agua en los fotogramas de video y la adición de indicaciones de marca comercial a los incrustados por fotograma aumenta significativamente la capacidad del modelo visual de lenguaje para entender el video. Notablemente, nuestro enfoque mejora la capacidad de adaptación del modelo CLIP a varios conjuntos de datos de reconocimiento de acciones en video, logrando incrementos de rendimiento del 16,8%, 18,4% y 13,8% en HMDB-51, UCF-101 y el conjunto de datos egocéntrico EPIC-Kitchen-100, respectivamente. Además, nuestro método exclusivamente visual de indicación demuestra un rendimiento competitivo en comparación con los métodos existentes de ajuste fino y adaptación, al tiempo que requiere menos parámetros aprendibles. Además, a través de extensos estudios de abstracción, encontramos el equilibrio óptimo entre imperceptibilidad y adaptabilidad. El código estará disponible.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro