Aprendizaje cruzado basado en correlación semántica y aprendizaje multi-tarea para recuperación de texto y video
Autores: Wu, Xiaoyu; Wang, Tiantian; Wang, Shengjin
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Aprendizaje cruzado basado en correlación semántica y aprendizaje multi-tarea para recuperación de texto y video
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Video
Texto
Semántico
Multi-modal
Recuperación
Aprendizaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Las tareas de recuperación de texto-video enfrentan un gran desafío en la brecha semántica entre la información multimodal. Algunos métodos existentes transforman el texto o el video en el mismo subespacio para medir su similitud. Sin embargo, este tipo de método no considera agregar una restricción de consistencia semántica al asociar las dos modalidades de codificación semántica, y el resultado asociado es pobre. En este documento, proponemos un algoritmo de recuperación multimodal basado en asociación semántica y aprendizaje multitarea. Primero, se extraen las características de varios niveles de video o texto basadas en múltiples redes de aprendizaje profundo, de modo que la información de las dos modalidades pueda estar completamente codificada. Luego, en el espacio de características público donde se mapean juntas la información de las dos modalidades, proponemos una medida de similitud semántica y clasificación de consistencia semántica basada en características de texto-video para un marco de aprendizaje multitarea. Con la tarea de clasificación de consistencia semántica, el aprendizaje de la tarea de asociación semántica está restringido. Así, el aprendizaje multitarea guía el mejor mapeo de características de las dos modalidades y optimiza la construcción de un subespacio de características unificado. Finalmente, los resultados experimentales de nuestro algoritmo propuesto en el conjunto de datos de Descripción de Video de Microsoft (MSVD) y MSR-Video a Texto (MSR-VTT) son mejores que la investigación existente, lo que demuestra que nuestro algoritmo puede mejorar el rendimiento de la recuperación multimodal.
Descripción
Las tareas de recuperación de texto-video enfrentan un gran desafío en la brecha semántica entre la información multimodal. Algunos métodos existentes transforman el texto o el video en el mismo subespacio para medir su similitud. Sin embargo, este tipo de método no considera agregar una restricción de consistencia semántica al asociar las dos modalidades de codificación semántica, y el resultado asociado es pobre. En este documento, proponemos un algoritmo de recuperación multimodal basado en asociación semántica y aprendizaje multitarea. Primero, se extraen las características de varios niveles de video o texto basadas en múltiples redes de aprendizaje profundo, de modo que la información de las dos modalidades pueda estar completamente codificada. Luego, en el espacio de características público donde se mapean juntas la información de las dos modalidades, proponemos una medida de similitud semántica y clasificación de consistencia semántica basada en características de texto-video para un marco de aprendizaje multitarea. Con la tarea de clasificación de consistencia semántica, el aprendizaje de la tarea de asociación semántica está restringido. Así, el aprendizaje multitarea guía el mejor mapeo de características de las dos modalidades y optimiza la construcción de un subespacio de características unificado. Finalmente, los resultados experimentales de nuestro algoritmo propuesto en el conjunto de datos de Descripción de Video de Microsoft (MSVD) y MSR-Video a Texto (MSR-VTT) son mejores que la investigación existente, lo que demuestra que nuestro algoritmo puede mejorar el rendimiento de la recuperación multimodal.