Multi-task video captioning with a stepwise multimodal encoder
Autores: Liu, Zihao; Wu, Xiaoyu; Yu, Ying
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Multi-task video captioning with a stepwise multimodal encoder
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Subtitulado de video
Codificador multimodal
De video a texto
De texto a video
Coincidencia semántica
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La subtitulación de videos tiene como objetivo generar una oración gramatical y precisa para describir un video. Los métodos recientes han abordado principalmente este problema considerando múltiples modalidades, sin embargo, han descuidado la diferencia en las modalidades y la importancia de reducir la brecha entre el video y el texto. Este documento propone un método de subtitulación de video multi-tarea con un Codificador Multimodal Gradual. El codificador puede digerir de manera flexible múltiples modalidades asignando una profundidad de codificación adecuada para cada modalidad. También explotamos flujos tanto de video a texto (V2T) como de texto a video (T2V) al agregar una tarea auxiliar de coincidencia semántica de video-texto. Logramos con éxito un rendimiento de vanguardia en dos conjuntos de datos ampliamente conocidos: MSVD y MSR-VTT: (1) con el conjunto de datos MSVD, nuestro método logra una mejora del 18% en CIDEr; (2) con el conjunto de datos MSR-VTT, nuestro método logra una mejora del 6% en CIDEr.
Descripción
La subtitulación de videos tiene como objetivo generar una oración gramatical y precisa para describir un video. Los métodos recientes han abordado principalmente este problema considerando múltiples modalidades, sin embargo, han descuidado la diferencia en las modalidades y la importancia de reducir la brecha entre el video y el texto. Este documento propone un método de subtitulación de video multi-tarea con un Codificador Multimodal Gradual. El codificador puede digerir de manera flexible múltiples modalidades asignando una profundidad de codificación adecuada para cada modalidad. También explotamos flujos tanto de video a texto (V2T) como de texto a video (T2V) al agregar una tarea auxiliar de coincidencia semántica de video-texto. Logramos con éxito un rendimiento de vanguardia en dos conjuntos de datos ampliamente conocidos: MSVD y MSR-VTT: (1) con el conjunto de datos MSVD, nuestro método logra una mejora del 18% en CIDEr; (2) con el conjunto de datos MSR-VTT, nuestro método logra una mejora del 6% en CIDEr.