logo móvil
Contáctanos

Sum-gan-gea: resumen de video utilizando gan con distribución gaussiana y atención externa

Autores: Yu, Qinghao; Yu, Hui; Wang, Yongxiong; Pham, Tuan D.

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Sum-gan-gea: resumen de video utilizando gan con distribución gaussiana y atención externa


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Resumen de video
Subconjunto disperso
Partes informativas
Conocimiento previo
Distribución de interés
Representación de características globales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
La sumarización de video tiene como objetivo generar un subconjunto escaso que sea más conciso y menos redundante que el video original, al tiempo que contiene las partes más informativas del video. Sin embargo, los trabajos previos ignoran el conocimiento previo de la distribución de la interesante de los fotogramas de video, lo que hace difícil que la red aprenda la importancia de los diferentes fotogramas. Además, los modelos tradicionales por sí solos (como RNN y LSTM) no son lo suficientemente robustos para capturar características globales de la secuencia de video, ya que los fotogramas de video se ajustan más a una estructura de datos no euclidiana. Con este fin, proponemos un nuevo método de sumarización basado en el concepto del modelo de grafo para aprender las conexiones de relación de características entre los fotogramas de video, lo que puede guiar al generador de resúmenes para generar una representación de características globales robusta. Específicamente, proponemos utilizar el aprendizaje adversarial para integrar la distribución gaussiana y un mecanismo de atención externa (SUM-GAN-GEA). La función gaussiana es una función de mapeo a priori que considera la distribución de la interesante de los fotogramas de video reales y la atención externa puede reducir el tiempo de inferencia del modelo. Los resultados experimentales en dos conjuntos de datos de abstracción de video populares (SumMe y TVSum) demuestran la alta superioridad y competitividad de nuestro método en robustez y rápida convergencia.

Otros recursos que podrían interesarte

Temas Virtualpro