logo móvil
Contáctanos

Aprendizaje cruzado basado en correlación semántica y aprendizaje multi-tarea para recuperación de texto y video

Autores: Wu, Xiaoyu; Wang, Tiantian; Wang, Shengjin

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Aprendizaje cruzado basado en correlación semántica y aprendizaje multi-tarea para recuperación de texto y video


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Video
Texto
Semántico
Multi-modal
Recuperación
Aprendizaje

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones


Descripción
Las tareas de recuperación de texto-video enfrentan un gran desafío en la brecha semántica entre la información multimodal. Algunos métodos existentes transforman el texto o el video en el mismo subespacio para medir su similitud. Sin embargo, este tipo de método no considera agregar una restricción de consistencia semántica al asociar las dos modalidades de codificación semántica, y el resultado asociado es pobre. En este documento, proponemos un algoritmo de recuperación multimodal basado en asociación semántica y aprendizaje multitarea. Primero, se extraen las características de varios niveles de video o texto basadas en múltiples redes de aprendizaje profundo, de modo que la información de las dos modalidades pueda estar completamente codificada. Luego, en el espacio de características público donde se mapean juntas la información de las dos modalidades, proponemos una medida de similitud semántica y clasificación de consistencia semántica basada en características de texto-video para un marco de aprendizaje multitarea. Con la tarea de clasificación de consistencia semántica, el aprendizaje de la tarea de asociación semántica está restringido. Así, el aprendizaje multitarea guía el mejor mapeo de características de las dos modalidades y optimiza la construcción de un subespacio de características unificado. Finalmente, los resultados experimentales de nuestro algoritmo propuesto en el conjunto de datos de Descripción de Video de Microsoft (MSVD) y MSR-Video a Texto (MSR-VTT) son mejores que la investigación existente, lo que demuestra que nuestro algoritmo puede mejorar el rendimiento de la recuperación multimodal.

Otros recursos que podrían interesarte

Temas Virtualpro