Resumen de videos con la transformada de firma
Autores: de Curtò, J.; de Zarzà, I.; Roig, Gemma; Calafate, Carlos T.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Resumen de videos con la transformada de firma
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Resúmenes visuales
Transformación de firma
RMSE
MAE
Resumen automático de video
Detección de objetos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
Este manuscrito presenta un nuevo punto de referencia para evaluar la calidad de los resúmenes visuales sin necesidad de anotadores humanos. Está basado en la Transformada de Firma, centrándose específicamente en las métricas de RMSE y MAE de Firma y Log-Firma, y se basa en la suposición de que el muestreo aleatorio uniforme puede ofrecer capacidades de resumen precisas. Proporcionamos un nuevo conjunto de datos que incluye videos de Youtube y sus transcripciones automáticas de audio correspondientes. En primer lugar, presentamos una línea de base preliminar para el resumen automático de videos, que tiene en su núcleo un Transformador de Visión, un modelo de imagen-texto pre-entrenado con Pre-entrenamiento de Lenguaje-Imagen Contrastivo (CLIP), así como un módulo de detección de objetos. A continuación, proponemos una técnica precisa basada en los componentes armónicos capturados por la Transformada de Firma, que ofrece una precisión convincente. Las medidas analíticas son evaluadas extensamente, y concluimos que se correlacionan fuertemente con la noción de un buen resumen.
Descripción
Este manuscrito presenta un nuevo punto de referencia para evaluar la calidad de los resúmenes visuales sin necesidad de anotadores humanos. Está basado en la Transformada de Firma, centrándose específicamente en las métricas de RMSE y MAE de Firma y Log-Firma, y se basa en la suposición de que el muestreo aleatorio uniforme puede ofrecer capacidades de resumen precisas. Proporcionamos un nuevo conjunto de datos que incluye videos de Youtube y sus transcripciones automáticas de audio correspondientes. En primer lugar, presentamos una línea de base preliminar para el resumen automático de videos, que tiene en su núcleo un Transformador de Visión, un modelo de imagen-texto pre-entrenado con Pre-entrenamiento de Lenguaje-Imagen Contrastivo (CLIP), así como un módulo de detección de objetos. A continuación, proponemos una técnica precisa basada en los componentes armónicos capturados por la Transformada de Firma, que ofrece una precisión convincente. Las medidas analíticas son evaluadas extensamente, y concluimos que se correlacionan fuertemente con la noción de un buen resumen.