Sum-gan-gea: resumen de video utilizando gan con distribución gaussiana y atención externa
Autores: Yu, Qinghao; Yu, Hui; Wang, Yongxiong; Pham, Tuan D.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Sum-gan-gea: resumen de video utilizando gan con distribución gaussiana y atención externa
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Resumen de video
Subconjunto disperso
Partes informativas
Conocimiento previo
Distribución de interés
Representación de características globales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La sumarización de video tiene como objetivo generar un subconjunto escaso que sea más conciso y menos redundante que el video original, al tiempo que contiene las partes más informativas del video. Sin embargo, los trabajos previos ignoran el conocimiento previo de la distribución de la interesante de los fotogramas de video, lo que hace difícil que la red aprenda la importancia de los diferentes fotogramas. Además, los modelos tradicionales por sí solos (como RNN y LSTM) no son lo suficientemente robustos para capturar características globales de la secuencia de video, ya que los fotogramas de video se ajustan más a una estructura de datos no euclidiana. Con este fin, proponemos un nuevo método de sumarización basado en el concepto del modelo de grafo para aprender las conexiones de relación de características entre los fotogramas de video, lo que puede guiar al generador de resúmenes para generar una representación de características globales robusta. Específicamente, proponemos utilizar el aprendizaje adversarial para integrar la distribución gaussiana y un mecanismo de atención externa (SUM-GAN-GEA). La función gaussiana es una función de mapeo a priori que considera la distribución de la interesante de los fotogramas de video reales y la atención externa puede reducir el tiempo de inferencia del modelo. Los resultados experimentales en dos conjuntos de datos de abstracción de video populares (SumMe y TVSum) demuestran la alta superioridad y competitividad de nuestro método en robustez y rápida convergencia.
Descripción
La sumarización de video tiene como objetivo generar un subconjunto escaso que sea más conciso y menos redundante que el video original, al tiempo que contiene las partes más informativas del video. Sin embargo, los trabajos previos ignoran el conocimiento previo de la distribución de la interesante de los fotogramas de video, lo que hace difícil que la red aprenda la importancia de los diferentes fotogramas. Además, los modelos tradicionales por sí solos (como RNN y LSTM) no son lo suficientemente robustos para capturar características globales de la secuencia de video, ya que los fotogramas de video se ajustan más a una estructura de datos no euclidiana. Con este fin, proponemos un nuevo método de sumarización basado en el concepto del modelo de grafo para aprender las conexiones de relación de características entre los fotogramas de video, lo que puede guiar al generador de resúmenes para generar una representación de características globales robusta. Específicamente, proponemos utilizar el aprendizaje adversarial para integrar la distribución gaussiana y un mecanismo de atención externa (SUM-GAN-GEA). La función gaussiana es una función de mapeo a priori que considera la distribución de la interesante de los fotogramas de video reales y la atención externa puede reducir el tiempo de inferencia del modelo. Los resultados experimentales en dos conjuntos de datos de abstracción de video populares (SumMe y TVSum) demuestran la alta superioridad y competitividad de nuestro método en robustez y rápida convergencia.