logo móvil
Contáctanos

Multi-task video captioning with a stepwise multimodal encoder

Autores: Liu, Zihao; Wu, Xiaoyu; Yu, Ying

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Multi-task video captioning with a stepwise multimodal encoder


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Subtitulado de video
Codificador multimodal
De video a texto
De texto a video
Coincidencia semántica
Rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
La subtitulación de videos tiene como objetivo generar una oración gramatical y precisa para describir un video. Los métodos recientes han abordado principalmente este problema considerando múltiples modalidades, sin embargo, han descuidado la diferencia en las modalidades y la importancia de reducir la brecha entre el video y el texto. Este documento propone un método de subtitulación de video multi-tarea con un Codificador Multimodal Gradual. El codificador puede digerir de manera flexible múltiples modalidades asignando una profundidad de codificación adecuada para cada modalidad. También explotamos flujos tanto de video a texto (V2T) como de texto a video (T2V) al agregar una tarea auxiliar de coincidencia semántica de video-texto. Logramos con éxito un rendimiento de vanguardia en dos conjuntos de datos ampliamente conocidos: MSVD y MSR-VTT: (1) con el conjunto de datos MSVD, nuestro método logra una mejora del 18% en CIDEr; (2) con el conjunto de datos MSR-VTT, nuestro método logra una mejora del 6% en CIDEr.

Otros recursos que podrían interesarte

Temas Virtualpro